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本 书 以 大 数据 分 析 全 流程 为 主线 ,介绍 了 数据 采集 ,数据 存储 与 管理 .数据 处 理 与 分 析 、 数 据 可 视 化 等 
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Database System 等 大 量 英文 学 术 资 料 ,与 广大 网 友 分 享 , 深 受 欢迎 ;2013 年 在 厦门 大 学 开 
设 大 数据 课程 ,并 因 在 教学 领域 的 突出 贡献 和 学 生 的 认可 ,成 为 2013 年 度 和 2017 年 度 厦门 
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建设 了 高 校 大 数据 课程 公共 服务 平台 (http://dblab. xmu. edu. cn/post/bigdata-teach- 
ing-platform/) ,成 为 全 国 高 校 大 数据 教学 知名 品牌 。 平 台 为 教师 教学 和 学 生 学 习 大 数据 课 
程 提供 包括 教学 大 纲 、 讲 义 PPT、 学 习 指 南 、 备 课 指 南 、 实 验 指南 、 上 机 习题 ,授课 视频 、 技 术 
资料 等 全 方位 、 一 站 式 免费 服务 ,平台 年 访问 量 超过 100 万 次 ;同时 提供 面向 高 校 的 大 数据 
实验 平台 建设 方案 和 大 数据 课程 师资 培训 服务 。 








seregen AA 影响 着 社会 生产 和 人 民生 活 的 


方方面面 名 Vr AMORE OR 新 一 轮 科 技 较量 的 基础 ,高 等 院 
校 承担 着 大 数 次 人 才 增 养 的 重任 ,需要 及 时 建立 大 数据 课程 体系 ,为 为 社会 培养 
和 输送 一 大 批 具 备 委 数 据 专 业 素养 的 高 级 人 才 ， :满足 社会 对 大 数据 人 才 日 益 旺 
盛 的 需求 。 
—— TUI 2013 年 12 
月 ,笔者 根据 自己 主讲 厦门 大 学 计算 机 系 研究 生 大 数据 课程 的 教学 实践 ,编写 
了 电子 书 ( 大 数据 技术 基础 》, 通 过 网 络 免费 发 布 ,获得 了 较 好 的 反响 。 此 后 两 
年 多 的 时 间 里 ,笔者 继续 对 大 数据 技术 知识 体系 进行 深入 学 习 和 系统 梳理 ,并 
结合 教学 实践 和 大 量 调 研 ,编著 出 版 了 《大 数据 技术 原理 与 应 用 ) 教 材 , 该 书 第 
1 版 于 2015 年 8 月 出 版 发 行 ,第 2 版 于 2017 年 1 月 出 版 发 行 。《 大 数据 技术 原 
理 与 应 用 ) 一 书 侧重 于 介绍 大 数据 技术 的 实现 原理 ,编程 实践 内 容 较 少 ,该 教材 
定位 为 入 门 级 大 数据 教材 ,以 “构建 知识 体系 ,阐明 基本 原理 开展 初级 实践 .了 
解 相关 应 用 ?为 原则 , 旨 在 为 读者 搭建 起 通 向 大 数据 知识 空间 的 桥梁 和 纽带 ,为 
读者 在 大 数据 领域 深耕 细作 黄 定 基础 、 指 明 方向 。 教 材 系 统 论 述 了 大 数据 的 基 
本 概念 ,大 数据 处 理 架构 Hadoop、 分 布 式 文件 系统 HDFS、 分 布 式 数据 库 
HBase, NoSQL 数据 库 ` 云 数据 库 、 分 布 式 并 行 编程 模型 MapReduce、 大 数据 处 
理 架 构 Spark ` 流 计算 、 图 计算 、 数 据 可 视 化 以 及 大 数据 在 互联 网 .生物 医学 和 
物流 等 各 个 领域 的 应 用 。 

《大 数据 技术 原理 与 应 用 ) 一 书 出 版 以 后 .获得 了 读者 较 高 的 认可 ,目前 已 
经 成 为 国内 多 所 高 校 的 大 数据 课程 教材 。 与 此 同时 ,笔者 在 最 近 两 年 通过 各 种 
形式 助力 全 国 高 校 加 快 推进 大 数据 课程 建设 ,包括 建设 全 国 高 校 大 数据 课程 公 
共 服 务 平台 、 开 展 全 国 高 校 大 数据 公开 课 巡 讲 计划 、 组 织 全 国 高 校 大 数据 教学 
论坛 .举办 全 国 高 校 大 数据 课程 教师 培训 交流 班 等 。 通 过 这 些 活动 ,笔者 与 全 
国 高 校 广大 大 数据 课程 教师 有 了 更 深 的 接触 和 交流 ,也 收集 到 了 广大 一 线 教师 
的 核心 教学 需求 。 很 多 高 校 教师 在 高 度 肯定 《大 数据 技术 原理 与 应 用 ) 教 材 的 
同时 ,也 提出 了 很 多 中 肯 的 改进 意见 和 建议 ,其 中 ,有 很 多 教师 指出 ,应 该 加 强 
大 数据 实践 环节 的 训练 ,提供 实验 指导 和 综合 案例 。 

为 了 更 好 地 满足 高 校 教学 实际 需求 ,笔者 带领 厦门 大 学 数据 库 实 验 团队 ， 
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开展 了 大 量 的 探索 和 实践 ,并 对 实践 材料 进行 系统 整理 ,在 此 基础 上 编写 了 本 教程 。 本 教程 
侧重 于 介绍 大 数据 软件 的 安装 、 使 用 和 基础 编程 方法 ,并 提供 大 量 实验 和 案例 。 由 于 大 数据 
软件 都 是 开源 软件 ,安装 过 程 一 般 比 较 复杂 ,也 很 耗费 时 间 。 为 了 尽量 减少 读者 搭建 大 数据 
实验 环境 时 的 障碍 ,笔者 在 本 书 中 详细 写 出 了 各 种 大 数据 软件 的 详细 安装 过 程 , 可 以 确保 读 
者 顺利 完成 大 数据 实验 环境 搭建 。 

本 书 共 13 章 ,详细 介绍 系统 和 软件 的 安装 、 使 用 以 及 基础 编程 方法 。 第 1 章 介 绍 大 数 
据 的 关键 技术 和 代表 性 软件 ,帮助 读者 形成 对 大 数据 技术 及 其 代表 性 软件 的 总 体 性 认识 。 
第 2 章 介绍 Linux 系统 的 安装 和 使 用 方法 ,为 后 面 其 他 章节 的 学 习 葛 定 基础 。 第 3 章 介 绍 
分 布 式 计算 框架 Hadoop 的 安装 和 使 用 方法 。 第 4 章 介 绍 分 布 式 文件 系统 HDFS 的 基础 编 
程 方 法 。 第 5 章 介 绍 分 布 式 数据 库 HBase 的 安装 和 基础 编程 方法 。 第 6 章 介 绍 典型 No- 
SQL 数据 库 的 安装 和 使 用 方法 ,包括 键 值 数据 库 Redis 和 文档 数据 库 MongoDB。 第 7 章 介 
绍 如 何 编写 基本 的 MapReduce 程序 。 第 8 章 介 绍 基于 Hadoop 的 数据 仓库 Hive 的 安装 和 
使 用 方法 。 第 9 章 介绍 基于 内 存 的 分 布 式 计 算 框架 Spark 的 安装 和 基础 编程 方法 。 第 10 
章 介绍 5 种 典型 的 可 视 化 工具 的 安装 和 使 用 方法 ,包括 Easel. ly、D3、 魔 镜 、ECharts、Tab- 
leau 等 。 第 11 章 介绍 数据 采集 工具 的 安装 和 使 用 方法 ,包括 Flume, Kafka 和 Sqoop。 第 
12 章 介绍 一 个 大 数据 课程 综合 实验 案例 , 即 网 站 用 户 购物 行为 分 析 。 第 13 章 通 过 5 个 实 
验 让 读者 加 深 对 知识 的 理解 。 

本 书面 向 高 校 计算 机 和 信息 管理 等 相关 专业 的 学 生 , 可 以 作为 专业 必修 课 或 选修 课 的 
辅助 教材 。 本 书 是 (大 数据 技术 原理 与 应 用 》 的 “姊妹 篇 ”, 可 以 作为 (大 数据 技术 原理 与 应 
用 ) 的 辅助 配套 教程 ,两 本 书 组 合 使 用 ,可 以 达到 更 好 的 学 习 效果 。 此 外 ,本 书 也 可 以 和 市 场 
上 现 有 的 其 他 大 数据 教材 配套 使 用 ,作为 教学 辅助 用 书 。 

本 书 由 林子 雨 执笔 。 在 撰写 过 程 中 ,厦门 大 学 计算 机 科学 系 硕士 研究 生 谢 荣 东 、 罗 道 
文 . 邓 少 军 . 阮 榨 城 . 薛 倩 、. 魏 亮 . 曾 冠 华 等 做 了 大 量 辅助 性 工作 ,在 此 ,向 这 些 同学 的 辛勤 工 
作 表 示 囊 心 的 感谢 。 

本 书 的 官方 网 站 是 http://dblab. xmu. edu. cn/post/bigdatapractice/ ,免费 提供 了 全 部 
配套 资源 的 在 线 浏 览 和 下 载 , 并 接受 错误 反馈 和 发 布 勘误 信息 。 同 时 ,在 学 习 大 数据 课程 的 
过 程 中 ,欢迎 读者 访问 厦门 大 学 数据 库 实 验 室 建设 的 国内 高 校 首 个 大 数据 课程 公共 服务 平 
台 (http://dblab. xmu. edu. cn/post/bigdata-teaching-platform/) ,该 平台 为 教师 教学 和 学 
生 学 习 大 数据 课程 提供 讲义 PPT .学习 指 南 、 备 课 指南 、 上 机 习题 .技术 资料 .授课 视频 等 全 
方位 、 一 站 式 免费 服务 。 

本 书 在 撰写 过 程 中 ,参考 了 大 量 网 络 资料 ,对 大 数据 技术 及 其 典型 软件 进行 了 系统 梳 
理 , 有 选择 地 把 一 些 重 要 知识 纳入 本 书 。 由 于 笔者 能 力 有 限 , 本 书 难免 存在 不 足 之 处 , 望 广 
大 读者 不 音 赐教 。 
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大 数据 技术 概述 


大 数据 的 时 代 已 经 到 来 ,大 数据 作为 继 云 计算 、 物 联网 之 后 IT 行业 又 一 颠覆 性 的 技 
术 , 备 受 关注 。 大 数据 无 处 不 在 ,包括 金融 、 汽 车 、 零 售 ,和 餐饮、 电信 、 能 源 、 政 务 、 医 疗 、 体 育 、 
娱乐 等 在 内 的 社会 各 行 各 业 ,都 融入 了 大 数据 之 中 ,大 数据 对 人 类 的 社会 生产 和 生活 必 将 产 
生 重 大 而 深远 的 影响 。 

本 童 首先 介绍 大 数据 关键 技术 和 各 类 典型 的 大 数据 软件 ,帮助 读者 形成 对 大 数据 技术 
及 其 代表 性 软件 的 总 体 性 认识 ;然后 ,给 出 本 书 的 整体 内 容 安排 ,帮助 读者 快速 找到 相关 技 
术 所 对 应 的 章节 ;最 后 ,详细 给 出 与 本 书 配套 的 在 线 资源 ,帮助 读者 更 好 、 更 深入 地 学 习 理 解 
相关 大 数据 技术 知识 。 


1.1 大 数据 时 代 


人 类 全 面 进入 信息 化 社会 以 后 ,数据 以 自然 方式 增长 ,其 产生 不 以 人 的 意志 为 转移 。 从 
1986 年 开始 到 2016 年 的 30 年 时 间 里 ,全球 数据 的 数量 增长 了 100 多 倍 ,今后 的 数据 量 增 
长 速度 将 更 快 ,我 们 正 生 活 在 一 个 “数据 爆炸 ”的 大 数据 时 代 。 今天 ,世界 上 只 有 大 约 25% 
的 设备 是 联网 的 ,大 约 80% 的 上 网 设备 是 计算 机 和 手机 ,而 在 不 远 的 将 来 , 随 着 物 联网 的 发 
展 和 大 规模 普及 ,汽车 .电视 、 家 用 电器 、 生 产 机 器 等 各 种 设备 也 将 联 入 互联 网 ,各 种 传感器 
和 摄像 头 将 遍布 人 们 工作 和 生活 的 各 个 角落 ,这 些 设备 每 时 每 刻 都 在 自动 产生 大 量 数 据 。 
可 以 说 ,人 类 社会 正经 历 第 二 次 数据 爆炸 (如 果 把 印刷 在 纸 上 的 文字 和 图 片 也 看 作 数 据 , 那 
么 ,人 类 历史 上 第 一 次 数据 爆炸 发 生 在 造纸 术 和 印刷 术 发 明 的 时 期 )。 各 种 数据 产生 速度 之 
快 ,产生 数量 之 大 ,已 经 远 远 超出 传统 技术 可 以 处 理 的 范围 “数据 爆炸 ”成 为 大 数据 时 代 的 
鲜明 特征 。 

在 数据 爆炸 的 今天 ,人 类 一 方面 对 知识 充满 渴求 , 另 一 方面 为 数据 的 复杂 特征 所 困惑 。 
数据 爆炸 对 科学 研究 提出 了 更 高 的 要 求 ,需要 人 类 设计 出 更 加 灵活 高 效 的 数据 存储 、\ 处 理 和 
分 析 工 具 , 来 应 对 大 数据 时 代 的 挑战 。 由 此 , 必 将 带 来 云 计算 、 数 据 仓库 数据 挖 据 等 技术 和 
应 用 的 提升 或 者 根本 性 变革 。 在 存储 效率 (存储 技术 ) 领 域 ,需要 实现 低 成 本 的 大 规模 分 布 
式 存储 ;在 网 络 效率 (网 络 技术 ) 方 面 , 需 要 实现 及 时 响应 的 用 户 体验 ;在 数据 中 心 方面 ,需要 
开发 更 加 绿色 节能 的 新 一 代数 据 中 心 ,在 有 效 面 对 大 数据 处 理 需求 的 同时 ,实现 最 大 化 资源 
利用 率 、 最 小 化 系统 能 耗 的 目标 。 面 对 数据 爆炸 的 大 数据 时 代 , 我 们 人 类 不 再 从 容 ! 
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1.2 大 数据 关键 技术 


大 数据 的 基本 处 理 流程 ,主要 包括 数据 采集 ,存储 管理 .处理 分 析 、 结 果 呈 现 等 环节 。 
此 ,从 数据 分 析 全 流程 的 角度 ,大 数据 技术 主要 包括 数据 采集 与 预 处 理 .数据 存储 和 管理 、 数 
据 处 理 与 分 析 、 数 据 可 视 化 ` 数 据 安 全 和 隐私 保护 等 几 个 层面 的 内 容 (具体 如 表 1-1 所 示 ) 。 
其 中 ,数据 可 视 化 有 时 也 被 视 为 数据 分 析 的 一 种 , 即 可 视 化 分 析 , 因 此 ,数据 可 视 化 也 可 被 归 
和 人 “数据 处 理 与 分 析 " 这 一 大 类 。 
表 1-1 大 数据 技术 的 不 同 层面 及 其 功能 
技术 层面 功 能 


利用 ETL(Extraction-Transformation-Loading) 工 具 将 分 布 的 、 异 构 数 据 源 中 的 数据 ,如 
数据 采集 与 | 关系 数据 \ 平 面 数据 文件 等 ,抽取 到 临时 中 间 层 后 进行 清洗 、 转 换 、 集 成 ,最 后 加 载 到 数 
预 处 理 据 仓库 或 数据 集 市 中 ,成 为 联机 分 析 处 理 、 数 据 挖掘 的 基础 ;也 可 以 利用 日 志 采 和 集 工具 
(如 Flume、Kafka 等 ) 把 实时 采集 的 数据 作为 流 计 算 系 统 的 输入 ,进行 实时 处 理 分 析 


数据 存储 和 | 利用 分 布 式 文件 系统 \ 数 据 仓 库 、 关 系数 据 库 ,NoSQL 数据 库 \ 云 数据 库 等 ,实现 对 结构 
管理 化 、 半 结构 化 和 非 结构 化 海量 数据 的 存储 和 管理 


数据 处 理 与 | 利用 分 布 式 并 行 编程 模型 和 计算 框架 ,结合 机 器 学 习 和 数据 挖掘 算法 ,实现 对 海量 数据 
分 析 的 处 理 和 分 析 


数据 可 视 化 | 对 分 析 结 果 进 行 可 视 化 呈现 ,帮助 人 们 更 好 地 理解 数据 \ 分 析 数据 


数据 安全 和 | 在 从 大 数据 中 挖掘 潜在 的 巨大 商业 价值 和 学 术 价值 的 同时 ,构建 隐私 数据 保护 体系 和 
隐私 保护 数据 安全 体系 ,有 效 保护 个 人 隐私 和 数据 安全 























需要 指出 的 是 ,大 数据 技术 是 许多 技术 的 集合 体 , 这 些 技术 也 并 非 全 部 都 是 新 生 事物 ， 
诸如 关系 数据 库 、 数 据 仓 库 、 数 据 采 集 、ETL、OLAP(On-Line Analytical Processing) ,数据 
挖掘 、 数 据 隐 私 和 安全 ,数据 可 视 化 等 已 经 发 展 多 年 的 技术 ,在 大 数据 时 代 得 到 不 断 补充 、 完 
善 , 提 高 后 又 有 了 新 的 升华 ,也 可 以 视 为 大 数据 技术 的 一 个 组 成 部 分 。 对 于 这 些 技术 ,除了 
数据 可 视 化 技术 以 外 ,我 们 将 不 再 介绍 ,本 书 重点 阐述 近 些 年 新 发 展 起 来 的 大 数据 核心 技术 
及 其 代表 性 软件 使 用 方法 ,包括 分 布 式 并 行 编 程 . 分 布 式 文件 系统 、 分 布 式 数据 库 `.NoSQL 
数据 库 .日 志 采 集 工具 等 。 

此 外 ,大 数据 技术 及 其 代表 性 软件 种 类 繁多 ,不 同 的 技术 都 有 其 适用 和 不 适用 的 场景 。 
总 体 而 言 ,不 同 的 企业 应 用 场景 ,都 对 应 着 不 同 的 大 数据 计算 模式 ,根据 不 同 的 大 数据 计算 
模式 ,可 以 选择 相应 的 大 数据 计算 产品 ,具体 如 表 1-2 所 示 。 


表 1-2 大 数据 计算 模式 及 其 代表 产品 











大 数据 计算 模式 解决 问题 代表 产品 
批 处 理 计算 针对 大 规模 数据 的 批量 处 理 MapReduce、Spark 等 

" P Storm, S4, Flume, Streams, Puma, DStream, 
uni VOBRNCENUEMINÓR Super Mario 银河 流 数据 处 理 平台 等 
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续 表 
大 数据 计算 模式 解决 问题 代表 产品 
Pregel,GraphX, Giraph, PowerGraph, Hama, 
图 计算 针对 大 规模 图 结构 数据 的 处 理 GoldenOrb 4$ 
查询 分 析 计 算 大 规模 数据 的 存储 管理 和 查询 分 析 | Dremel, Hive, Cassandra, Impala 等 








批 处 理 计算 主要 解决 针对 大 规模 数据 的 批量 处 理 , 也 是 人 们 上 日常 数据 分 析 工 作 中 非常 
常见 的 一 类 数据 处 理 需 求 。 例 如 , 息 虫 程序 把 大 量 网 页 抓 取 过 来 存储 到 数据 库 中 以 后 ,可 以 
使 用 MapReduce 对 这 些 网 页 数据 进行 批量 处 理 ,生成 索引 ,加 快 搜索 引擎 的 查询 速度 。 

流 计算 主要 是 实时 处 理 来 自 不 同 数据 源 的 、 连 续 到 达 的 流 数据 ,经 过 实时 分 析 人 处理, 给 
出 有 价值 的 分 析 结 果 。 例 如 ,用 户 在 访问 淘宝 网 等 电子 商务 网 站 时 ,用 户 在 网 页 中 的 每 次 点 
击 的 相关 信息 (比如 选取 了 什么 商品 ) 都 会 像 水 流 一 样 实时 传播 到 大 数据 分 析 平台 ,平台 采 
用 流 计算 技术 对 这 些 数据 进行 实时 处理 分 析 , 构 建 用 户 “画像 ”, 为 其 推荐 可 能 感 兴趣 的 其 他 
相关 商品 。 

在 大 数据 时 代 , 许 多 大 数据 都 是 以 大 规模 图 或 网 络 的 形式 呈现 ,如 社交 网 络 、 传 染病 传 
播 途 径 .交通 事故 对 路 网 的 影响 等 ,此 外 ,许多 非 图 结构 的 大 数据 ,也 常常 会 被 转换 为 图 模型 
后 再 进行 处 理 分 析 。 图 计算 软件 是 专门 针对 图 结构 数据 开发 的 ,在 处 理 大 规模 图 结构 数据 
时 可 以 获得 很 好 的 性 能 。 

查询 分 析 计 算 也 是 一 种 在 企业 中 常见 的 应 用 场景 ,主要 是 面向 大 规模 数据 的 存储 管理 
和 查询 分 析 , 用 户 一 般 只 需要 输入 查询 语句 (如 SQL) ,就 可 以 快速 得 到 相关 的 查询 结果 。 

流 计算 软件 (Storm、S4 等 ) 和 图 计算 软件 (Pregel、Hama 等 ) 学 习 门 槛 稍 高 ,一 般 适 合作 
为 高 级 教程 内 容 , 本 书 作 为 人 门 级 教程 ,没有 涉及 流 计算 和 图 计算 的 内 容 。 感 兴趣 的 读者 ， 
可 以 访问 本 书 官网 ,学 习 ( 大 数据 技术 原理 与 应 用 ) 在 线 视频 的 内 容 , 了 解 图 计算 和 流 计 算 的 
技术 原理 和 相关 软件 的 使 用 方法 。 


1.3 大 数据 软件 


本 书 涉及 的 大 数据 软件 涵盖 数据 采集 、 数 据 存储 与 管理 .数据 处 理 与 分 析 、 数 据 可 视 化 
等 环节 ,每 个 环节 所 采用 的 相关 软件 如 表 1-3 所 示 。 


表 1-3 本 书 所 涉及 的 大 数据 软件 





























大 数据 技术 大 数据 软件 
数据 采集 Flume, Kafka, Sqoop 
数据 存储 与 管理 HDFS, HBase, Redis , MongoDB 
数据 处 理 与 分 析 MapReduce, Spark, Hive 
数据 可 视 化 Easel. ly, D3, Tableau Jii && .ECharts 








针对 表 1-3 中 的 每 一 款 大 数据 软件 ,本 书 都 会 给 出 详细 的 安装 和 使 用 方法 介绍 ,并 讲解 
如 何 开展 基础 编程 实践 。 
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1.3.1 Hadoop 


Hadoop 是 Apache 软件 基金 会 旗下 的 一 个 开源 分 布 式 计算 平台 ,为 用 户 提供 了 系统 底 
层 细节 透明 的 分 布 式 计算 架构 。Hadoop 是 基于 Java 语言 开发 的 ,具有 很 好 的 跨 平台 特性 ， 
并 且 可 以 部 署 在 廉价 的 计算 机 集群 中 。Hadoop 的 核心 是 分 布 式 文件 系统 HDFS(Hadoop 
Distributed File System) 和 MapReduce。 借 助 Hadoop ,程序 员 可 以 轻松 地 编写 分 布 式 并 行 
程序 ,将 其 运行 在 廉价 的 计算 机 集群 上 ,完成 海量 数据 的 存储 与 计算 。 经 过 多 年 的 发 展 ， 
Hadoop 生态 系统 不 断 完善 和 成 熟 ,目前 已 经 包含 多 个 子 项 目 ( 见 图 1-1)。 除 了 核心 的 
HDFS 和 MapReduce 以 外 ,Hadoop 生态 系统 还 包括 YARN, Zookeeper, HBase, Hive, Pig, 
Mahout,Sqoop,Flume, Ambari 等 功能 组 件 。 
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图 1-1 Hadoop 生态 系统 


本 书 将 详细 介绍 HDFS, MapReduce, HBase, Hive, Flume, Sqoop 等 组 件 的 安装 和 使 用 
方法 ,因此 ,这 里 简要 介绍 一 下 这 些 组 件 的 功能 ,要 了 解 Hadoop 的 更 多 细节 内 容 , 可 以 访问 
本 书 官网 ,学 习 ( 大 数据 技术 原理 与 应 用 ) 在 线 视频 的 内 容 。 

(1) HDFS: Hadoop 分 布 式 文件 系统 HDFS 是 针对 谷歌 分 布 式 文件 系统 GFS(Google 
File System) 的 开源 实现 , 它 是 Hadoop 两 大 核心 组 成 部 分 之 一 ,提供 了 在 廉价 服务 器 集群 
中 进行 大 规模 分 布 式 文件 存储 的 能 力 。HDFS 具有 很 好 的 容错 能 力 , 并 且 兼 容 廉价 的 硬件 
设备 ,因此 ,可 以 以 较 低 的 成 本 利用 现 有 机 器 实现 大 流量 和 大 数据 量 的 读 写 。 

(2) MapReduce: 是 一 种 分 布 式 并 行 编程 模型 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 
运算 , 它 将 复杂 的 、 运 行 于 大 规模 集群 上 的 并 行 计算 过 程 高 度 抽象 为 两 个 函数 一 一 Map 和 
Reduce, MapReduce 极 大 方便 了 分 布 式 编程 工作 ,编程 人 员 在 不 会 分 布 式 并 行 编程 的 情况 
下 ,也 可 以 很 容易 将 自己 的 程序 运行 在 分 布 式 系统 上 ,完成 海量 数据 集 的 计算 。 

(3) HBase: 是 针对 谷歌 BigTable 的 开源 实现 ,是 一 个 高 可 靠 、 高 性 能 、 面 向 列 、 可 伸缩 
的 分 布 式 数据 库 , 主 要 用 来 存储 非 结构 化 和 半 结 构 化 的 松散 数据 。HBase 可 以 支持 超大 规 
模 数据 存储 , 它 可 以 通过 水 平 扩展 的 方式 ,利用 廉价 计算 机 集群 处 理由 超过 10 亿 行 数据 和 
数 百 万 列 元 素 组 成 的 数据 表 。 
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(4) Hive: 是 一 个 基于 Hadoop 的 数据 仓库 工具 ,可 以 用 于 对 存储 在 Hadoop 文件 中 的 
数据 集 进行 数据 整理 、 特 殊 查 询 和 分 析 处 理 。Hive 的 学 习 门 槛 比较 低 ,因为 它 提供 了 类 似 
于 关系 数据 库 SQL 语言 的 查询 语言 HiveQL, 可 以 通过 HiveQL 语句 快速 实现 简单 的 
MapReduce 统计 ,Hive 自身 可 以 自动 将 HiveQL 语句 快速 转换 成 MapReduce 任务 进行 运 
行 , 而 不 必 开 发 专门 的 MapReduce 应 用 程序 ,因而 十 分 适合 数据 仓库 的 统计 分 析 。 

(5) Flume: 是 Cloudera 公司 开发 的 一 个 高 可 用 的 、 高 可 靠 的 、 分 布 式 的 海量 日 志 采 集 、 
聚合 和 传输 系统 。Flume 支持 在 日 志 系 统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ;同时 ， 
Flume 提供 对 数据 进行 简单 处 理 , 并 写 到 各 种 数据 接收 方 的 能 力 。 

(6) Sqoop: 是 SQL-to-Hadoop 的 缩写 ,主要 用 来 在 Hadoop 和 关系 数据 库 之 间 交 换 数 
据 , 可 以 改进 数据 的 互 操作 性 。 通 过 Sqoop. 可 以 方便 地 将 数据 从 MySQL, Oracle, 
PostgreSQL 等 关系 数据 库 中 导入 Hadoop( 如 导入 到 HDFS、HBase 或 Hive (f) ,或 者 将 数 
据 从 Hadoop 导出 到 关系 数据 库 , 使 得 传统 关系 数据 库 和 Hadoop 之 间 的 数据 迁移 变 得 非 
常 方便 。 





1.3.2 Spark 


Spark 最 初 诞生 于 美国 加 州 大 学 伯克利 分 校 的 AMP 实验 室 ,是 一 个 可 应 用 于 大 规模 数 
据 处 理 的 快速 .通用 引擎 ,如 今 是 Apache 软件 基金 会 下 的 顶级 开源 项 目 之 一 。Spark 最 初 
的 设计 目标 是 使 数据 分 析 更 快 一 一 不 仅 运 行 速度 快 ,也 要 能 快速 ,容易 地 编写 程序 。 为 了 使 
程序 运行 更 快 ,Spark 提供 了 内 存 计算 ,减少 了 和 迭代 计算 时 的 L/O 开销 ;而 为 了 使 编写 程序 
更 容易 ,Spark 使 用 简练 .优雅 的 Scala 语言 编写 .基于 Scala 提供 了 交互 式 的 编程 体验 。 虽 
然 Hadoop 在 过 去 很 长 一 段 时 间 内 成 为 大 数据 的 代名词 ,但 是 MapReduce 分 布 式 计算 模型 
仍 存在 诸多 缺陷 ,而 Spark 不 仅 具 备 了 Hadoop MapReduce 的 优点 ,而 且 解 决 了 Hadoop 
MapReduce 的 缺陷 。Spark 正 以 其 结构 一 体 化 、 功 能 多 元 化 的 优势 逐渐 成 为 当今 大 数据 领 
域 最 热门 的 大 数据 计算 平台 。 

Spark 的 设计 遵循 “一 个 软件 栈 满 足 不 同 应 用 场景 "的 理念 ,逐渐 形成 了 一 套 完整 的 生 
态 系 统 , 既 能 够 提供 内 存 计算 框架 ,也 可 以 支持 SQL 即席 查询 (Spark SQL), ii oX iT $E 
(Spark Streaming) 、 机 器 学 习 (MLlib) 和 图 计算 (GraphX) 等 。Spark 可 以 部 署 在 资源 管理 
器 YARN 之 上 ,提供 一 站 式 的 大 数据 解决 方案 。 因 此 ,Spark 所 提供 的 生态 系统 同时 支持 
批 处 理 、 交 互 式 查 询 和 流 数据 处 理 。 

现在 ,Spark 生态 系统 已 经 成 为 伯克利 数据 分 析 软 件 栈 BDAS(Berkeley Data Analytics 
Stack) 的 重要 组 成 部 分 。BDAS 的 架构 如 图 1-2 所 示 , 从 中 可 以 看 出 ,Spark 专注 于 数据 的 
处 理 分 析 ,而 数据 的 存储 还 是 要 借助 于 Hadoop 分 布 式 文件 系统 HDFS, Amazon S3 等 来 实 
现 的 。 因 此 , Spark 生态 系统 可 以 很 好 地 实现 与 Hadoop 生态 系统 的 兼容 ,使 得 现 有 
Hadoop 应 用 程序 可 以 非常 容易 地 迁移 到 Spark 系统 中 。 


1.3.3 NoSQL 数据 库 


NoSQL 数据 库 是 一 种 不 同 于 关系 数据 库 的 数据 库 管 理 系统 ,是 对 一 大 类 非 关系 型 数据 
库 的 统称 , 它 所 采用 的 数据 模型 并 非 传统 关系 数据 库 的 关系 模型 ,而 是 类 似 键 值 ` 列 族 、 文 档 
等 非 关系 模型 。NoSQL 数据 库 没 有 固定 的 表 结 构 , 通 常 也 不 存在 连接 操作 ,也 没有 严格 遵 
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图 1-2 BDAS 架构 


守 ACID 约束 ,因此 ,与 关系 数据 库 相 比 ,NoSQL 具有 灵活 的 水 平 可 扩展 性 ,可 以 支持 海量 
数据 存储 。 此 外 ,NoSQL 数据 库 支持 MapReduce 风格 的 编程 ,可 以 较 好 地 应 用 于 大 数据 时 
代 的 各 种 数据 管理 。NoSQL 数据 库 的 出 现 , 一 方面 弥补 了 关系 数据 库 在 当前 商业 应 用 中 存 
在 的 各 种 缺陷 , 另 一 方面 也 撼动 了 关系 数据 库 的 传统 垄断 地 位 。 

NoSQL 数据 库 虽 然 数 量 众多 ,但 是 ,归结 起 来 ,典型 的 NoSQL 数据 库 通常 包括 键 值 数 
据 库 、 列 族 数据 库 、 文 档 数据 库 和 图 数据 库 。 本 书 将 介绍 两 种 流行 的 NoSQL 数据 库 产品 的 
安装 和 使 用 方法 , 即 键 值 数据 库 Redis 和 文档 数据 库 MongoDB。 

键 值 数据 库 (Key-Value Database) 会 使 用 一 个 喻 希 表 ,这 个 表 中 有 一 个 特定 的 Key 和 
一 个 指针 指向 特定 的 Value, Key 可 以 用 来 定位 Value, 即 存储 和 检索 具体 的 Value。 
Value 对 数据 库 而 言 是 透明 不 可 见 的 ,不 能 对 Value 进行 索引 和 查询 ,只 能 通过 Key 进行 查 
ij. Value 可 以 用 来 存储 任意 类 型 的 数据 ,包括 整 型 .字符 型 ,数组 ,对象 等 。 在 存在 大 量 写 
操作 的 情况 下 , 键 值 数 据 库 可 以 比 关 系数 据 库 取得 明显 更 好 的 性 能 。 

在 文档 数据 库 中 ,文档 是 数据 库 的 最 小 单位 。 虽 然 每 一 种 文档 数据 库 的 部 署 都 有 所 不 
同 ,但 是 ,大 都 假定 文档 以 某 种 标准 化 格式 封装 并 对 数据 进行 加 密 , 同 时 用 多 种 格式 进行 解 
码 , 包 括 XML、YAML、JSON 和 BSON 等 ,或 者 也 可 以 使 用 二 进 制 格式 (如 PDF、 微 软 
Office 文档 等 )。 文 档 数据 库 通过 键 来 定位 一 个 文档 ,因此 可 以 看 成 键 值 数据 库 的 一 个 衍生 
品 ,而 且 前 者 比 后 者 具有 更 高 的 查询 效率 。 对 于 那些 可 以 把 输入 数据 表示 成 文档 的 应 用 而 
言 ,文档 数据 库 是 非常 合适 的 。 


1.3.4 数据 可 视 化 


数据 可 视 化 是 指 将 大 型 数据 集中 的 数据 以 图 形 图 像 形式 表示 ,并 利用 数据 分 析 和 开发 
工具 发 现 其 中 未 知 信息 的 处 理 过 程 。 数 据 可 视 化 技术 的 基本 思想 是 将 数据 库 中 每 一 个 数据 
项 作为 单个 图 元 素 表 示 ,大 量 的 数据 集 构成 数据 图 像 ,同时 将 数据 的 各 个 属性 值 以 多 维 数据 
的 形式 表示 ,可 以 从 不 同 的 维度 观察 数据 ,从 而 对 数据 进行 更 深入 的 观察 和 分 析 。 虽 然 可 视 
化 在 数据 分 析 领 域 并 非 最 具 技术 挑战 性 的 部 分 ,但 是 , 它 是 整个 数据 分 析 流程 中 至 关 重 要 的 
一 个 环节 ,毕竟 数据 分 析 是 为 人 服务 的 ,分 析 结 果 只 有 能 够 让 用 户 轻 松 理解 ,才能 更 好 地 指 
导 生产 实践 ,真正 体现 数据 分 析 的 价值 。 

本 书 将 介绍 Easel. ly、D3、Tableau、 魔 镜 、ECharts、R 等 可 视 化 工具 的 安装 和 使 用 方法 。 
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1.4 内 容 安 排 


本 书 以 大 数据 分 析 全 流程 为 主线 ( 见 图 1-3) ,介绍 了 数据 采集 、 数 据 存 储 与 管理 ,数据 
处 理 与 分 析 、 数 据 可 视 化 等 环节 典型 软件 的 安装 、 使 用 和 基础 编程 方法 。 








大 数据 分 析 全 流程 
-- 
Easel.ly 
HDFS D3 
Flume HBase MapReduce Tableau 
Kafka Redis Spark 魔 镜 
Sqoop | MongoDB | Hive | ECharts | 
数据 采集 ”数据 存储 。 ”数据 处 理 。 ”数据 可 视 化 
与 管理 与 分 析 


图 1-3 本 书 中 涉及 的 相关 大 数据 软件 


本 书 涵盖 了 操作 系统 (Linux 和 Windows)、 开 发 工具 (Eclipse)、 大 数据 相关 软件 
(Sqoop, Kafka, Flume, Hadoop ( HDFS, MapReduce ), HBase, Hive, Spark, MySQL, 
MongoDB, Redis, R, Easel. ly、D3、 魔 镜 、ECharts、Tableau)。 其 中 ,数据 仓库 Hive 既 可 以 
作为 数据 存储 和 管理 工具 ,也 可 以 作为 数据 分 析 工 具 。 在 本 书 中 ,这 些 系统 和 软件 之 间 的 相 
互 关系 如 图 1-4 所 示 ,需要 注意 的 是 ,该 图 仅 反 映 这 些 软件 在 本 书 中 的 实际 关系 。 
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对 于 本 书 中 相关 系统 和 软件 的 相互 关系 ,这 里 简要 说 明 如 下 。 

(1) 在 操作 系统 层面 ,采用 Linux 和 Windows 系统 。 

(2) 除了 Tableau 必须 在 Windows 系统 下 使 用 (Tableau 目前 不 支持 Linux) ,其 他 所 有 
软件 都 是 在 Linux 系统 下 安装 和 使 用 。 

(3) 虽然 本 书 中 很 多 软件 都 是 在 Linux 系统 下 安装 和 使 用 ,但 是 ,其 中 一 些 软件 也 可 以 
在 Windows 系统 下 安装 和 使 用 ,例如 MySQL, Redis, MongoDB, Eclipse, R , Easel. ly, D3, 
Jii Si. ECharts 5: ; Hadoop 和 Spark 通常 都 是 运行 在 Linux 系统 下 。 

(4) 在 本 书 中 , HBase 借助 于 HDFS 作为 底层 存储 ,可 以 编写 MapReduce 程序 对 
HDFS 和 HBase 中 的 数据 进行 处 理 和 分 析 ; Hive 采用 MySQL 进行 Hive 元 数据 的 存储 ， 
Hive 会 把 SQL 查询 语句 自动 转换 成 MapReduce 任务 来 执行 ;Sqoop 用 来 在 MySQL, 
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HBase, Hive 之 间 进 行 数据 相互 导入 导出 ;Flume 和 Kafka 采集 到 的 数据 会 被 提交 给 Spark 
进行 处 理 。 

K 1-4 给 出 了 相关 大 数据 软件 在 本 书 中 的 章节 安排 ,可 以 帮助 读者 快速 找到 相关 技术 
所 对 应 的 章节 。 


表 1-4 相关 大 数据 软件 在 本 书 中 的 章节 安排 

































































* 件 功 能 所 在 章节 
Linux 操作 系统 第 2 章 
Eclipse 开发 工具 第 2 章 
Flume 日 志 采 集 工 具 第 11 章 
Kafka 日 志 采 集 工 具 第 11 章 
Sqoop 数据 迁移 工具 第 11 章 
Hadoop 分 布 式 计 算 框架 第 3 章 
HDFS 分 布 式 文件 系统 第 4 章 
MapReduce 分 布 式 并 行 编程 框架 第 7 章 
HBase 分 布 式 数据 库 第 5 章 
Hive 基于 Hadoop 的 数据 仓库 第 8 章 
MySQL 关系 数据 库 附录 B 
Spark 基于 内 存 的 分 布 式 计算 框架 第 9 章 
MongoDB 文档 数据 库 第 6 章 
Redis 键 值 数据 库 第 6 章 
Easel. ly 可 视 化 工具 第 10 章 
D3 可 视 化 工具 第 10 章 
魔 镜 可 视 化 工具 第 10 章 
ECharts 可 视 化 工具 第 10 章 
Tableau 可 视 化 工具 第 10 章 
R 可 视 化 工具 第 12 章 











需要 说 明 的 是 ,数据 采集 工具 (Flume、Kafka、Sqoop) 虽 然 是 在 大 数据 分 析 流 程 中 的 第 一 个 
环节 ,但 是 ,由 于 这 些 工具 需要 和 Hadoop 和 Spark 等 配合 使 用 ,因此 ,本 书 把 数据 采集 工具 
(Flume、Kafka、Sqoop) 的 介绍 安排 在 后 面 的 第 11 章 中 。 在 第 11 章 中 ,介绍 完 Flume, Kafka 和 
Sqoop 的 安装 以 后 ,会 直接 在 第 11 章 介绍 如 何 对 Kafka 和 Spark 进行 组 合 使 用 ,然后 ,在 第 12 
章 中 ,会 使 用 Sqoop 工具 在 MySQL, HBase, Hive 之 间 进 行 数据 相互 导入 导出 。 


1.5 在 线 资 源 


本 书 官网 提供 了 全 部 配套 资源 的 在 线 浏览 和 下 载 ,官网 地 址 是 http://dblab. xmu. 


edu. cn/post/bigdatapractice/ 。 





1.5.1 在 线 资源 


第 1 章 大 数据 技术 概述 


一 览 表 


为 了 更 好 地 学 习 和 使 用 本 书 , 官 网 上 提供 了 下 载 专 区 、 在 线 视频 、 拓 展 阅 读 等 栏目 ,具体 


内 容 如 表 1-5 所 示 。 


表 1-5 本 书 官网 的 栏目 内 容 说 明 














官网 栏目 内 容 说 明 

下 载 专区 包含 本 书 内 各 个 章节 所 涉及 的 源 代码 和 软件 

在 线 视频 包含 与 本 书 配套 的 “大 数据 技术 原理 与 应 用 ”课程 免费 在 线 视频 
拓展 阅读 包含 各 种 大 数据 技术 在 线 教程 





大 数据 课程 ”| 提供 
公共 服务 平台 | 验 指 





1.5.2 FER 


大 数据 教学 资源 一 站 式 “ 免 费 " 在 线 服务 ,包括 课程 教材 .讲义 PPT, 课 程 习题 、 实 
南 ,学 习 指南 、 备 课 指 南 、 授 课 视 频 和 技术 资料 等 


“下 载 专区 ”栏目 提供 了 本 书 内 各 个 章节 所 涉及 的 源 代码 和 软件 的 下 载 ,为 了 方便 读者 


查找 相关 软件 和 代码 


目录 


C 1-6 给 出 了 本 书 官网 “下 载 专区 ”目录 及 其 内 容 的 概览 。 
表 1-6 本 书 官网 “下 载 专区 ”目录 及 其 内 容 概 览 
文件 清单 





软件 





apache-flume-1. 7. 0-bin. tar. gz 

apache-hive-1. 2. 1-bin. tar. gz 
apache-maven-3. 3. 9-bin. zip 
eclipse-java-mars-2-win32-x86 64. zip 
FileZilla 3. 17. 0. 0. win64 setup. exe 
hadoop-2. 7. 1. tar. gz 

hbase-1. 1. 5-bin. tar. gz 

kafka 2. 10-0. 10. 1. 0. tgz 
mongo-java-driver-3. 2. 2. jar 
mongodb-linux-x86 64-ubuntul604-3. 2. 7. tgz 
mysgl-connector-java-5. 1. 40. tar. gz 

putty VO. 63. 0. 0. 43510830. exe 

redis-3. 2. 7. tar. gz 

sbt-launch. jar 

SecurAble. exe 

spark-1. 6. 2-bin-without-hadoop. tgz 
spark-streaming. 2. 10-1. 6. 2. jar 
spark-streaming-kafka 2. 10-1. 6. 2. jar 
sqoop-1. 4. 6. bin hadoop-2. 0. 4-alpha. tar. gz 
Ubuntu16. 04-hadoop2. 7. 1-spark1. 6. 2-XMU-linziyu-20161123. ova 
ubuntukylin-16. 04-desktop-amd64. iso 
VirtualBox 5.0. 10.4061 104061 Win. 1448355141. exe 
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续 表 





目录 文件 清单 





第 3 章 core-site. xml; hdfs-site. xml; mapred-site. xml; yarn-site. xml 





第 4 章 HDFSCreateFile. java; HDFSFileIfExist java; HDFSReadFile. java 





第 5 章 HBaseOperation. java 





第 6 章 MongoDBExample. java 





第 7 章 WordCount. java 





代码 第 8 章 hive-site. xml 





第 9 章 pom. xml; simple. sbt; SimpleApp. java;SimpleApp. scala 





第 10 章 examplel. html; example2. html;example3. html; example4. html; example5. html; 


example6. html; toolbox. html; d3. zip 





第 11 章 avro. conf; example. conf; KafkaWordCount. scala; KafkaWordProducer. scala; 


simple. sbt; StreamingExamples. scala 





第 123€ | ImportHBase. java; pre deal. sh 
数据 集 | 第 12 章 | user. zip 
实验 答案 | 附录 A | 附录 A 大 数据 课程 实验 答案 . pdf 














1.5.3 在 线 视频 


本 书 是 笔者 编写 的 另外 一 本 教材 (大 数据 技术 原理 与 应 用 》 的 “姊妹 篇 ”。 

《大 数据 技术 原理 与 应 用 ) 一 书 侧重 于 介绍 大 数据 技术 的 实现 原理 ,编程 实践 内 容 较 少 ， 
该 教材 定位 为 入 门 级 大 数据 教材 ,以 “构建 知识 体系 、 曾 明基 本 原理 ,开展 初级 实践 、 了 解 相 
关 应 用 ”为 原则 , 旨 在 为 读者 搭建 起 通 向 大 数据 知识 空间 的 桥梁 和 纽带 ,为 读者 在 大 数据 领 
域 深耕 细作 黄 定 基础 、 指 明 方向 。 教 材 系统 论述 了 大 数据 的 基本 概念 大 数据 处 理 架 构 
Hadoop、 分 布 式 文件 系统 HDFS、 分 布 式 数 据 库 HBase, NoSQL 数据 库 \ 云 数据 库 、 分 布 式 
并 行 编程 模型 MapReduce、 大 数据 处 理 架 构 Spark、 流 计算 、 图 计算 、 数 据 可 视 化 以 及 大 数据 
在 互联 网 ,生物 医学 和 物流 等 各 个 领域 的 应 用 。 

与 (大 数据 技术 原理 与 应 用 }》 一 书 不 同 , 本 书 侧重 于 介绍 大 数据 软件 的 安装 、 使 用 和 基础 
编程 方法 ,并 提供 了 丰富 的 实验 和 案例 。 本 书 可 以 作为 (大 数据 技术 原理 与 应 用 ) 的 配套 教 
程 ,两 本 书 组 合 使 用 ,可 以 达到 更 好 的 学 习 效 果 。 此 外 ,本 书 也 可 以 和 市 场 上 现 有 的 其 他 大 
数据 教材 配套 使 用 。 

《大 数据 技术 原理 与 应 用 ;教材 拥有 配套 的 高 清 课程 视频 , 共 13 讲 , 视 频 累计 长 度 1300 
分 钟 。 读 者 在 学 习 本 书 的 同时 ,可 以 通过 观看 在 线 视频 ,了 解 相关 大 数据 技术 的 实现 原理 ， 
从 而 更 好 实践 大 数据 技术 。 为 了 让 读者 在 学 习 本 书 时 能 够 快速 找到 对 应 的 在 线 视 频 内 容 ， 
这 里 给 出 本 书 和 在 线 视频 之 间 的 章节 对 应 关系 ( 见 表 1-7) 。 
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表 1-7 本 书 和 在 线 视频 之 间 的 章节 对 应 关系 









































本 书 章节 《大 数据 技术 原理 与 应 用 ) 视 频 
第 1 章 大 数据 技术 概述 第 1 讲 大 数据 概述 
第 2 章 Linux 系 统 的 安装 和 使 用 无 
第 33€ Hadoop 的 安装 和 使 用 第 2 讲 大 数据 处 理 架 构 Hadoop 
第 4 章 HDFS 操作 方法 和 基础 编程 第 3 讲 分 布 式 文件 系统 HDFS 
第 5 章 HBase 的 安装 和 基础 编程 第 4 讲 分 布 式 数据 库 HBase 
第 6 章 典型 NoSQL 数据 库 的 安装 和 使 用 第 5 讲 NoSQL 数据 库 
第 7 章 MapReduce 基础 编程 第 7 讲 MapReduce 
第 8 章 数据 仓库 Hive 的 安装 和 使 用 第 8 VF 基于 Hadoop 的 数据 仓库 Hive 
第 9 章 Spark 的 安装 和 基础 编程 第 10 讲 Spark 
第 10 章 典型 的 可 视 化 工具 的 使 用 方法 无 
第 11 章 数据 采集 工具 的 安装 和 使 用 无 
第 12 章 大 数据 课程 综合 实验 案例 无 





1.5.4 拓展 阅读 


本 书 只 是 简要 介绍 大 数据 软件 安装 和 基础 编程 ,如 果 要 深入 学 习 相 关内 容 , 可 以 访问 本 
书 官网 的 “拓展 阅读 ”栏目 ,里 面 提供 了 相关 的 大 数据 技术 在 线 教程 。 例 如 《Spark 入 门 教 
程 ) 为 读者 开辟 了 一 条 学 习 Spark 技术 的 捷径 ,扫除 学 习 道路 上 的 各 种 障碍 ,帮助 读者 降低 
学 习 难 度 , 大 幅度 节省 学 习 时 间 。 该 教程 详细 介绍 了 Scala 语言 .Spark 运行 架构 、RDD 的 
设计 与 运行 原理 .Spark 的 部 署 模式 .RDD 编程 、 键 值 对 RDD, GE I 73 , Spark SQL Spark 
Streaming, Spark MLlib 等 。 


1.5.5 大 数据 课程 公共 服务 平台 


高 校 大 数据 课程 公共 服务 平台 ( 见 图 1-5), 旨 在 为 全 国 高 校 教师 和 学 生 提供 大 数据 教 
学 资源 一 站 式 “ 免 费 "在 线 服务 ,包括 课程 教材 .讲义 PPT、 课 程 习题 .实验 指南 .学习 指南 、 
备课 指南 ,授课 视频 和 技术 资料 等 。 平台 重点 打造 “13 个 1 工程 ”, 即 1 本 教材 、1 个 教师 服 
务 站 、1 个 学 生 服 务 站 、1 个 公益 项 目 、1 堂 巡 讲 公 开课 、1 个 示范 班级 、1 门 在 线 课 程 、1 个 交 
流 群 (QQ 群 和 微 信和 群 )、1 个 保障 团队 、1 个 培训 交流 基地 、1 个 实验 平台 、1 个 课程 群 和 1 个 
微 信 公 众 号 。 平 台 由 厦门 大 学 数据 库 实验 室 建设 , 自 2013 年 5 月 建设 以 来 ,目前 年 访问 量 
超过 100 万 次 ,成 为 全 国 高 校 大 数据 教学 知名 品牌 。 


e 


同 
公共 服务 平台 


图 1-5 高 校 大 数据 课程 公共 服务 平台 的 标志 


a) 
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1.6 本 章 小 结 


大 数据 技术 是 一 个 庞杂 的 知识 体系 ,包含 了 大 量 相关 技术 和 软件 。 在 具体 学 习 相关 技 
术 及 其 软件 之 前 ,非常 有 必要 建立 对 大 数据 技术 体系 的 整体 性 认识 。 因 此 ,本 章 首先 从 总 体 
上 介绍 了 大 数据 关键 技术 和 各 类 大 数据 软件 。 鉴 于 不 同 的 大 数据 学 习 者 有 着 不 同 的 学 习 需 
求 ,为 了 方便 读者 迅速 找到 对 应 的 学 习 章 节 , 本 章 给 出 了 本 书 的 整体 内 容 安排 。 此 外 ,与 本 
书 配套 的 相关 资源 的 建设 ,是 帮助 读者 更 加 有 效 、 高 效 学 习 本 书 的 重要 方面 。 因 此 ,本 章 最 
后 详细 列 出 了 与 本 书 配套 的 各 种 丰富 的 在 线 资源 ,全 部 可 以 通过 网 络 自由 免费 访问 。 


Linux 系统 的 安装 和 使 用 


Hadoop 是 目前 处 于 主流 地 位 的 大 数据 软件 ,尽管 Hadoop 本 身 可 以 运行 在 Linux、 
Windows 和 其 他 一 些 类 UNIX 系统 (如 FreeBSD, OpenBSD, Solaris 等 ) 之 上 ,但 是 ,Hadoop 
官方 真正 支持 的 作业 平台 只 有 Linux。 这 就 导致 其 他 平台 在 运行 Hadoop 时 ,往往 需要 安 
装 很 多 其 他 的 包 来 提供 一 些 Linux 操作 系统 的 功能 ,以 配合 Hadoop 的 执行 。 例 如 ， 
Windows 在 运行 Hadoop 时 ,需要 安装 Cygwin 等 软件 。 鉴 于 Hadoop, Spark 等 大 数据 软件 
大 多 数 都 是 运行 在 Linux 系统 上 ,因此 ,本 书 采 用 Linux 系统 安装 各 种 常用 大 数据 软件 、 开 
展 基础 编程 。 

首先 ,本 章 简要 介绍 Linux 系统 ;然后 ,详细 介绍 Linux 系统 的 安装 方法 、Linux 系统 及 
相关 软件 的 基本 使 用 方法 ,为 后 面 章节 内 容 的 学 习 黄 定 基础 ;最 后 ,给 出 关于 教程 内 容 的 一 


些 约定 。 


2.1 Linux 系统 简介 


Linux 是 一 套 免费 使 用 和 自由 传播 的 类 UNIX 操作 系统 ,是 一 个 基于 POSIX 和 UNIX 
的 多 用 户 、 多 任务 .支持 多 线程 和 多 CPU 的 操作 系统 。Linux 有 许多 服务 于 不 同 目的 的 发 
行 版 ,包括 对 不 同 计算 机 结构 的 支持 、 对 一 个 具体 区 域 或 语言 的 本 地 化 、 实 时 应 用 和 嵌入 式 
系统 等 ,已 经 超过 300 个 发 行 版 ,但 是 ,目前 在 全 球 范围 内 只 有 10 个 左右 发 行 版 被 普遍 使 
用 ,如 Fedora、Debian、Ubuntu、RedHat、SuSE、CentOS 等 。 

Linux 的 发 行 版 本 可 以 大 体 分 为 两 类 : 一 类 是 商业 公司 维护 的 发 行 版 本 ;一 类 是 社区 
组 织 维护 的 发 行 版 本 ;前 者 以 著名 的 Redhat 为 代表 ,后 者 以 Debian 为 代表 。Debian 是 社 
区 类 Linux 的 典范 ,是 迄今 为 止 最 遵循 GNU 规范 的 Linux 系统 。Ubuntu 严格 来 说 不 能 算 
一 个 独立 的 发 行 版 本 ,Ubuntu 是 基于 Debian 的 unstable 版 本 加 强 而 来 的 。Ubuntu 就 是 
一 个 拥有 Debian 所 有 的 优点 以 及 自己 所 加 强 的 优点 的 近乎 完美 的 Linux 桌面 系统 ,在 服务 
端 和 桌面 端 使 用 占 比 最 高 ,网 络 上 资料 最 齐全 ,因此 ,本 书 采用 Ubuntu. 


2.2 Linux 系统 安装 


本 节 介绍 Linux 系统 的 安装 方法 ,内 容 包括 下 载 安 装 文件 .Linux 系统 的 安装 方式 、 安 
装 Linux 虚拟 机 、 生 成 Linux 虚拟 机 镜像 文件 等 。 
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2.2.1 下 载 安 装 文件 


本 书 采用 的 Linux 发 行 版 是 Ubuntu, 同 时 ,为 了 更 好 地 支持 汉化 (例如 ,更 容易 输入 中 
X) ,这 里 采用 Ubuntu Kylin 发 行 版 。Ubuntu Kylin 是 针对 中 国 用 户 定 制 的 Ubuntu 发 行 
版 本 ,里 面包 含 一 些 中 国 特色 的 软件 (如 中 文 拼音 输入 法 ) ,并 根据 中 国人 的 使 用 习惯 ,对 系 
统 做 了 一 些 优化 。 

可 以 通过 两 种 途径 下 载 Ubuntu Kylin 发 行 版 ,第 一 种 方式 是 进入 Windows 系统 ,访问 
Ubuntu 官网 下 载 (https://www. ubuntu. com/download/ubuntu-kylin)。 进 入 Ubuntu 官 
网 的 下 载 页 面 后 ( 见 图 2-1) ,会 提供 两 种 不 同 版 本 的 下 载 地 址 , 即 32 位 版 本 和 64 位 版 本 。 
如 果 计 算 机 硬件 配置 较 低 ,内 存 小 于 2GB, 建 议 选择 32 位 版 本 ;如 果 内 存 大 于 4GB, 建 议 选 
择 64 位 版 本 。 





Download Ubuntu Kylin 


Ubuntu Kylin 16.04.1 LTS 


Download the long-term support edition of Ubuntu Kylin 16 04.1 LTS SO mage fle. 
To install Ubuntu Kylin, burn the image file on a DVD or create a bootable USB disk 








图 2-1 Ubuntu Kylin 官网 下 载 页 面 


第 二 种 方式 是 进入 Windows 系统 ,访问 本 书 官网 (http://dblab. xmu. edu. cn/post/ 
bigdatapractice/) ,进入 “下 载 专区 ”, 在 “软件 ”目录 下 找到 文件 ubuntukylin-16. 04-desktop- 
amd64. iso 下 载 到 本 地 。 不 过 ,本 书 官网 仅 提供 了 64 位 版 本 的 Linux 系统 安装 镜像 文件 。 

Linux 系统 安装 文件 一 般 都 比较 大 ,往往 在 1GB 以 上 ,因此 ,在 下 载 Linux 系统 安装 文 
件 时 ,建议 使 用 支持 断 点 续 传 的 下 载 工具 ,如 迅雷 或 者 QQ 旋风 。 


2.2.2 Linux 系统 的 安装 方式 


Linux 系统 的 安装 主要 有 两 种 方式 : 虚拟 机 安装 方式 和 双 系 统 安装 方式 。 

(1) 虚拟 机 安装 方式 。 在 Windows 操作 系统 上 安装 虚拟 机 软件 (如 VirtualBox 或 
VMware) ,然后 ,在 虚拟 机 软件 之 上 安装 Linux 系统 。 采 用 这 种 安装 方式 时 ,Linux 系统 就 
相当 于 运行 在 Windows 上 的 一 个 软件 。 如 果 要 使 用 Linux 系统 ,需要 在 计算 机 开机 后 , 首 
先 启动 进入 Windows 操作 系统 ;然后 ,在 Windows 操作 系统 中 打开 虚拟 机 软件 (如 
VirtualBox) ;最 后 ,在 虚拟 机 软件 中 启动 Linux, 之 后 才能 使 用 Linux 系统 。 

(2) 双 系统 安装 方式 。 直 接 把 Linux 系统 安装 在 计算 机 “ 裸 机 ”上 ,而 不 是 安装 在 
Windows 系统 之 上 。 采 用 这 种 安装 方式 时 ,Linux 系统 和 Windows 系统 的 地 位 是 平等 的 ， 
当 计 算 机 开机 时 ,屏幕 上 会 显示 提示 信息 ,让 用 户 选择 要 启动 的 系统 : 如 果 用 户 选 择 
Windows 系统 ,计算 机 就 继续 启动 进入 Windows 系统 ;如 果 用 户 选 择 Linux 系统 ,计算 机 
就 继续 启动 进入 Linux 系统 。 
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对 于 虚拟 机 安装 方式 而 言 , 由 于 同时 要 运行 Windows 系统 和 Linux 系统 ,因此 ,这 种 安 
装 方式 对 计算 机 硬件 的 要 求 较 高 。 建 议 计 算 机 较 新 且 具 备 4GB 以 上 内 存 时 可 以 选择 虚拟 
机 安装 方式 。 如 果 计 算 机 较 旧 或 配置 内 存 小 于 AGB 时 ,建议 选择 双 系 统 安 装 方式 ;否则 ,在 
配置 较 低 的 计算 机 上 运行 Linux 虚拟 机 ,系统 运行 速度 会 非常 慢 。 

由 于 大 多 数 大 数据 初学 者 对 Windows 系统 比较 熟悉 ,对 Linux 系统 可 能 稍 显 陌生 , 因 
此 ,本 书 采用 虚拟 机 方式 安装 Linux 系统 。 如 果 需 要 采用 双 系 统 方式 安装 ,可 以 到 网 络 搜索 
相关 资料 完成 安装 ,这 里 不 做 介绍 。 


2.2.3 安装 Linux 虚拟 机 


当 采 用 虚拟 机 安装 方式 时 ,计算 机 一 定 要 具备 AGB 以 上 的 内 存 ; 否 则 ,运行 速度 会 很 
慢 。 计 算 机 的 硬盘 配置 需要 在 100GB 以 上 o 


1 检测 CPU 是否 支持 虚拟 化 


采用 虚拟 机 安装 方式 时 ,需要 提前 测试 计算 机 的 CPU 是 否 支持 虚拟 化 。 一 般 来 说 , 近 
几 年 购买 的 计算 机 的 CPU 都 是 支持 虚拟 化 的 ,不 过 ,还 是 建议 采用 SecurAble 软件 进行 测 
试 。 本 书 官网 提供 了 SecurAble 软件 的 下 载 ,在 “下 载 专区 ”的 “软件 ”目录 下 ,文件 名 是 


SecurAble. exe, 


D CPU 支持 虚拟 化 
运行 SecurAble 软件 以 后 ,如 果 得 到 如 图 2-2 所 示 结 果 , 则 说 明 CPU 支持 64 位 系统 ， 
支持 虚拟 化 。 





Intel Core i5-4590 CPU @ 3.30GHz 


64 Yes Yes. 


Maximum 
Bit Length 








图 2-2 CPU 支持 64 位 系统 时 的 SecurAble 检测 结果 


2) 虚拟 化 在 BIOS 中 没有 开启 

运行 SecurAble 软件 以 后 ,如 果 得 到 如 图 2-3 所 示 的 结果 , 则 说 明 CPU 支持 64 位 系 
统 ; 但 是 ,虚拟 化 在 BIOS 中 没有 开启 。 

这 时 ,就 需要 在 BIOS 中 开启 相关 选项 。 关 于 如 何 修改 BIOS 以 支持 虚拟 化 ,不 同 的 计 
算 机 具有 不 同 的 方法 。 对 于 大 部 分 计算 机 而 言 , 只 需要 在 开机 的 第 一 时 间 按 下 键盘 上 
Delete 键 即 可 进入 BIOS 系统 。 图 2-4 显示 了 某 款 计算 机 的 BIOS 界面 。 
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2-4 BIOS 界面 


在 该 BIOS 界面 中 ,选择 CPU Setup 就 可 以 进入 到 CPU 的 设置 界面 ( 见 图 2-5) ,需要 把 
Intel(R) Virtualization Technology 选项 设置 为 Enabled, 这 样 就 开启 了 虚拟 化 功能 。 


Intel(R) Vir ogy [Enabled] 


NINE LIT 





2-5 CPU 设置 界面 
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如 果 出 现 的 BIOS 设置 界面 和 本 书 不 同 , 请 参考 相关 网 络 资料 修改 BIOS 配置 。 


3) CPU 不 支持 虚拟 化 

运行 SecurAble 软件 以 后 ,如 果 得 到 如 图 2-6 所 示 结 果 ,一 般 情 况 下 ,意味 着 CPU 不 支 
持 虚 拟 化 ,建议 更 换 计 算 机 。 但 是 ,也 有 例外 ,在 实际 使 用 该 软件 时 ,通过 大 量 计 算 机 的 实际 
测试 结果 发 现 , 存 在 一 定 比例 的 “ 误 测 ”情况 ,也 就 是 说 ,测试 结果 是 “不 支持 虚拟 化 ”, 实 际 
上 ,计算 机 是 支持 虚拟 化 的 。 所 以 , 当 测 试 结果 是 “不 支持 虚拟 化 ”时 ,也 不 要 完全 放弃 ,可 以 
尝试 继续 按照 本 书后 面 的 步骤 安装 Linux 虚拟 机 ,也 许可 以 安装 成 功 。 


Æ SecurAble - What security features are available? 


pm 


E | 


Intel Pentium 4 CPU 3.00GHz 


32 No No 


Maximum Hardware Fisi 
Bit Length D.E.P. 





图 2-6 CPU 不 支持 虚拟 化 时 的 SecurAble 检测 结果 


2 安装 虚拟 机 软件 


常用 的 虚拟 机 软件 包括 VMware 和 VirtualBox 等 ,但 是 ,VMware 属于 商业 软件 ,需要 
付费 ,因此 ,本 书 采用 免费 的 开源 软件 VirtualBox。 可 以 到 本 书 官网 下 载 ,位 于 "下 载 专区 ” 
的 “软件 ”目录 下 ,文件 名 是 VirtualBox_5. 0. 10. 4061_104061_Win. 1448355141. exe。 下 载 
后 ,在 Windows 操作 系统 中 安装 VirtualBox。 根 据 大 量 计算 机 的 实际 安装 情况 ,有 部 分 计 
算 机 无 法 成 功 安装 VirtualBox, 这 时 ,请 尝试 获得 商业 软件 VMware 进行 安装 。 总 体 而 言 ， 
根据 大 量 计算 机 的 实际 安装 情况 ,部 分 计算 机 只 能 成 功 安装 VirtualBox 而 无 法 成 功 安装 
VMware, 还 有 一 部 分 计算 机 只 能 成 功 安 装 VMware 而 无 法 成 功 安装 VirtualBox。 所 幸 的 
是 ,对 于 VirtualBox 和 VMware 而 言 , 当 其 中 一 款 虚 拟 化 软件 在 计算 机 上 安装 失败 时 , 另 一 
款 虚拟 化 软件 基本 都 会 安装 成 功 ,在 实际 使 用 过 程 中 ,还 没有 出 现 这 两 款 虚拟 化 软件 都 安装 
失败 的 情形 。 


3. 安装 Linux 操作 系统 


本 书 仅 介 绍 如 何在 VirtualBox 上 安装 Linux 系统 ,关于 如 何在 VMware 上 安装 Linux 
系统 ,请 参考 相关 网 络 资料 。 

进入 Windows 系统 ,启动 VirtualBox 软件 ,按照 以 下 两 大 步骤 完成 Linux 系统 的 安 
装 : 首先 需要 创建 一 个 虚拟 机 ;然后 ,在 虚拟 机 上 安装 Linux 系统 。 


(um 
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1) 创建 虚拟 机 
(1) 新 建 一 个 虚拟 机 。 
打开 VirtualBox, 如 图 2-7 所 示 , 单 击 “新 建 ? 按 钮 ,创建 一 个 虚拟 机 。 


Wy Oracle VM VirtualBox WE - B x 
管理 (F) ANM) 帮助 (H) 








了 A 
FRW| emo) RED MF 








Bm Gao 


or 
你 可 以 按 Yl 键 未 查看 帮助 ， 或 访问 wr virtualbox ore 查看 最 新 信息 和 新 闻 m 


要 新 建 一 个 虚拟 电脑 ， 请 按 位 于 窗口 顶部 工具 栏 上 的 新 建 HA- «S 
LL 











图 2-7 VirtualBox 首 界面 


(2) 设置 虚拟 机 名 称 和 系统 类 型 。 

在 弹出 来 的 对 话 框 中 ( 见 图 2-8) ,在 “名 称 ” 后 面 的 文本 框 中 输入 虚拟 机 名 称 , 例 如 ,可 
以 取 名 为 Ubuntu。 在 “类 型 ”后面 的 下 拉 列 表 框 中 选择 Linux。 如 果 选 择 的 系统 是 32 位 
Ubuntu 系统 ,在 “版 本 ”后 面 的 下 拉 列 表 框 中 选择 Ubuntu(32bit) ;如 果 选 择 的 系统 是 64 位 
Ubuntu 系统 ,在 “版 本 ”后面 的 下 拉 列 表 框 中 选择 Ubuntu(64bit); 本 书 采用 的 是 64 位 
Ubuntu 系统 。 然 后 , 单 击 “ 下 一 步 ” 按 钮 。 

(3) 设 置 虚拟 机 内 存 大 小 。 

可 以 根据 计算 机 的 内 存 情况 来 设置 虚拟 机 内 存 大 小 。 如 果 计 算 机 总 内 存 为 4GB( 见 
图 2-9) ,可 以 划分 1GB 的 内 存 给 虚拟 机 来 运行 Ubuntu( 实 际 上 ,在 这 种 配置 下 运行 虚拟 机 
以 后 , 仍 会 稍 显卡 顿 ,建议 计算 机 总 内 存 增加 到 SGB 以 上 )。 如 果 计 算 机 总 内 存 有 8GB, 那 
么 可 以 划分 3GB 内 存 给 Ubuntu. 这样 运 行 速度 会 快 很 多 。 设置 好 以 后 , 单 击 “ 下 一 步 ” 

































































按钮 。 
? x ? x 
GE i € penea 
虚拟 电脑 名 称 和 系统 类 型 内 存 大 小 
请 法 反 新 让 所 电脑 的 措 玉 名 称 及 要 安装 的 所 作 系统 类 型 。 选择 分 本 给 虚拟 电 脑 的 内 存 大 小 0B) 。 
此 儿 称 将 用 二 标 训 此 虚拟 电脑 。 
BAFANA 2561B0 
ERW: [bunta “ : 
Aem: [Lino - A TETTE. Coana S O 
srw: meg g” - tad 
mes [T-50]| 取消 T—EG 取消 





























2-8 VirtualBox 新 建 虚拟 机 界面 2-9 ”内存 大 小 设置 界面 


(4) 创建 虚拟 硬盘 。 
在 弹出 的 界面 中 ( 见 
按钮 。 
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图 2-10) 选 择 * 现 在 创建 虚拟 硬盘 ? 单 选 按钮 ,然后 单 击 “ 创 建 ” 


在 弹出 的 界面 中 ( 见 图 2-11) 选 择 *VDICVirtualBox 磁盘 映像 )" 单 选 按 钮 ,然后 单 击 “ 下 


一 步 " 按 钮 。 





€ PRENER 


虚拟 硬盘 
你 本 以 添加 虚拟 硬盘 到 新 虚拟 电脑 中 。 新 建 一 个 虚拟 硬盘 
文件 或 从 列表 或 用 文件 夹 图 标 从 其 他 位 置 选择 一 个 * 


如 果 想 更 灵活 地 草 置 虚拟 硬盘 ， 也 可 以 跳 过 这 一 步 ， 在 创 
建 虚拟 电脑 之 后 在 配置 中 设 定 * 


建议 的 硬盘 大 小 为 8. 00 GBo 
O 不 添加 虚拟 硬盘 名 ) 

图 现在 创建 虚拟 硕 盘 (C) 

O 使 用 已 有 的 虚拟 硬盘 文件 (U) 




















图 2-10 创建 虚拟 硬盘 界面 











€ RENES 


虚拟 硬盘 文件 类 型 


建 虚拟 硬盘 的 文件 类 型 。 如 果 您 不 需要 其 他 
BARRES 您 可 以 让 此 设置 保持 不 更 改 状 态 。 


图 VMI (VirtualBox REME) 
O vor (虚拟 机 磁盘 ) 

O vo (EWES) 

O m (并 口 硬盘 ) 

O om (onn meS) 

O «cov (qnt 写 入 时 复制) 





图 2-11 设置 虚拟 硬盘 文件 类 型 界面 


在 弹出 的 界面 中 ( 见 图 2-12) 选 择 * 动 态 分 配 ? 单 选 按钮 ,然后 单 击 * 下 一 步 "按钮 。 
随后 需要 在 弹出 的 界面 中 ( 见 图 2-13) 选 择 文件 存储 的 位 置 和 容量 大 小 。 本 书 需 要 安 
装 常用 的 大 数据 软件 (包括 Hadoop, HBase, Hive, Spark 等 ) ,大 概 需要 划分 20GB (建议 


40GB) 用 于 文件 存储 ,然后 单 击 “ 创 建 "按钮 。 


E 创建 虚拟 硕 盘 


存储 在 物理 硬盘 上 


请 选择 新 建 虚拟 硬盘 文件 是 应 该 为 其 使 用 而 分 配 (动态 分 配 )， 还 
是 应 该 创建 完全 分 配 (固定 分 配 ) 。 


aya Rode OS SS ETE) (直至 达到 
ED: 不 过 当 其 内 部 空间 不 用 时 不 会 自动 缩 咸 占用 的 攀 


固定 大 小 的 虚拟 磁盘 文件 可 能 在 某 些 系统 中 要 花 很 长 时 间 来 创 
建 ， 但 它 往往 使 用 起 来 较 快 。 





图 aam 
O Bg 














[r-50 ]| má 

















图 2-12 虚拟 硬盘 文件 动态 分 配 设置 界面 









€ Renae 


文件 位 置 和 大 小 


请 在 下 面 的 框 中 输入 新 建 虚拟 硬盘 文件 的 名 称 ， 或 单 击 文件 来 图 
标 来 选择 创建 文件 要 保存 到 的 文件 夫 。 

















D: WbuntuWbuntu. vdi 
选择 虚拟 硬盘 的 大 小 此 大 小 为 虚拟 硬盘 文件 在 实际 硬盘 中 能 用 
的 朴 限 大 小 。 





opo 






































2-13. 文件 存储 位 置 和 容量 大 小 设置 界面 
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20 ， 
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到 此 为 止 ,就 完成 了 虚拟 机 的 创建 ,然后 ,就 可 以 在 这 个 新 建 的 虚拟 机 上 安装 Linux 系统 。 


2) 在 虚拟 机 上 安装 Linux 系统 
按照 上 面 的 步骤 完成 虚拟 机 的 创建 以 后 ,会 返回 到 如 图 2-14 所 示 的 界面 。 





二 Oracle VM VirtualBox SEF 地 口 x 
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B 显示 
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图 2-14 虚拟 机 创建 完成 以 后 的 界面 


这 时 请 勿 直接 单 击 “启动 ”按钮 ,否则 ,有 可 能 会 导致 进程 中 断 。 应 该 首先 设置 “存储 ”， 
单 击 图 2-14 中 的 “存储 ?按钮 ,打开 存储 设置 界面 ( 见 图 2-15)。 然 后 单 击 “ 没 有 盘 片 ”, 再 单 
击 光盘 按钮 ,选择 “选择 一 个 虚拟 光盘 ”, 找 到 之 前 已 经 下 载 到 本 地 的 Ubuntu 系统 安装 镜像 
文件 ubuntukylin-16. 04-desktop-amd64. iso, 单 击 “ 确 定 ” 按 钮 。 



























ENESE: Findon: DirectSound 
控制 总 片 ICH AC97 





图 2-15 选择 虚拟 光盘 界面 


在 界面 中 ( 见 图 
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2-16) 选 择 刚 创建 的 虚拟 机 Ubuntu, 单 击 “ 启 动 ” 按 钮 。 





S Oracle VM VirtualBox 


| 
LI) Aem) B 


Rem 
[31 C EXHI 





启动 后 如 果 看 到 丸 
16. 04-desktop-amd64. 


um 一 n x 


EEA 控制 (M) ”帮助 (H) 


[SP Gaw | 加 备份 [系统 快照 ] (8) 
D [3H 
mm = nw 





E Wuntu 
操作 系统 : Ubuntu (64bit) 


内 存 大 小 : 10246 
Bum. 软驱， 光驱 ， 硬 盘 Ubuntu 
Wine: Vamy, KEHA 


显示 

显存 大 小 : 1218 
运程 上 而 服务 器 CHA 
E: EHA 


i ow 


控制 器 IDE 
第 二 TDE 控 制 器 主 通道 。 [KE] ubuntukylin-14. 04. 2-desktop-andé4. iso (1.1068) 
控制 器 : SATA 

SATA 端口 0 Wbuntu_ vdi (Bii, 20.0068) 


你 声音 


ENESE): Windows DirectSound 
控制 芯片 ICH AC97 





D me 





图 2-16 ”加载 了 虚拟 光盘 后 的 VirtualBox 界面 





1 图 2-17 所 示 的 界面 ,在 下 拉 列 表 框 中 选择 ISO 文件 ubuntukylin- 
iso, 单 击 * 启 动 "按钮 。 如 果 没 有 出 现 此 界面 ,直接 跳 往 下 一 步 即 可 。 


请 选择 一 个 虚拟 光盘 文件 或 已 放 入 光盘 的 光驱 来 启 
动 虚 拟 电脑 。 


此 光盘 应 可 启动 并 且 有 你 想 安装 的 操作 系统 。 下 次 
SARUM 此 光盘 可 自动 弹出 ;你 也 可 以 手 
ij ° 





(ubuntukylin16.04-desktop-amd54. iso v] 








启动 














图 2-17 VirtualBox 虚拟 机 启动 后 可 能 出 现 的 界面 


启动 后 会 看 到 Ubuntu 的 安装 欢迎 界面 ( 见 图 2-18) ,选择 操作 系统 语言 ,推荐 使 用 中 文 


(简体 ) ,然后 单 击 “ 安 装 


£ Ubuntu” 按 钮 。 


然后 在 如 图 2-19 所 示 的 界面 中 .检查 是 否 连 接 网 络 、 是 否 安装 第 三 方 软件 。 如 果 此 时 


网 络 不 可 用 , 则 会 显示 叉 
软件 。 最 后 单 击 “ 继 续 





这 里 不 需要 联网 也 可 以 顺利 完成 安装 ,并 且 不 需要 安装 第 三 方 
”按钮 。 
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B Ubuntu [EEE] - Orede VM VirtualBox - B0 x 
zm" wa us ae 





ARDET Aakhe PSU. WIASS IRSDID-ERIMEASEUS SOHO. Ma, Hc bmROI HOST emsS. A bamISUEA. QU 






seid 
- 
3e 


试用 Ubuntu 安装 Ubuntu 


您 可 以 直接 从 此 CD Hig TUS mni treo a rrt (res. 


您 可 到 准备 完毕 , E910 S RERORARTTT (SEE EX) 方式 将 Ubuntu SER BIGERORIG E, ICITIEREKCREAS 


di SP ciwald snos cul 


图 2-18 Ubuntu 安装 欢迎 界面 


安装 


准备 安装 Ubu 





要 获得 己 佳 的 体验 ， 请 确定 这 台 计算 机 : 
sy 有 至 少 6.6 GB 可 用 的 磁盘 空间 


自已 经 连接 到 互联 网 





Ubuntu 使 用 软件 播放 Flash、MP3 和 其 他 媒体 ， 并 驱动 某 些 图 形 和 无 线 网 络 硬件 。 其 中 某 些 软件 是 闭 源 的 。 这 些 软件 受 


安装 这 个 第 三 方 软件 
Fluendo MP3 播 件 包含 Fraunhofer IIS 和 Technicolor SA 授权 的 MPEG Layer-3 音频 解码 技术 


退出 (Q) 后 退 (8) || s 











图 2-19 检查 是 否 连 接 网 络 和 安装 第 三 方 软件 的 界面 





在 如 图 2-20 所 示 的 界面 中 ,需要 确认 安装 类 型 ,这 里 选择 “其 他 选项 ”, 然 后 单 击 “ 继 续 ” 
按钮 。 
在 如 图 2-21 所 示 的 界面 中 , 单 击 








所 建 分 区 表 ” 按 钮 。 
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这 台 计 算 机 似乎 没有 安装 操作 系统 。 您 准备 怎么 做 ?了 


清除 整个 磁盘 并 安装 Ubuntu 
注意 : 这 会 副 除 所 有 系统 里 面 的 全 部 程 床 、 文 格 、 归 片 、 音 乐 和 其 他 文件 , 


En 








© 其 他 i 


您 可 以 种 忆 创建 、 调 整 分 区 ,或 者 为 Ubuntu 选择 多 个 分 区 。 lm 








退出 (Q) 后 退 (B) 继续 | 


图 2-20 安装 类 型 选择 界面 





设备 类 型 nga 格式 化 ? 大 小 已 用 已 装 系统 


了 ET 新 建 分 区 表 ... | 还原 

安装 启动 引导 器 的 设备 

/dev/sda ATA VBOX HARDDISK (21,5 GB) 下 
退出 (Q) 后 退 (8) | 现在 安装 人 








图 2-21 安装 类 型 界面 


在 弹出 的 界面 中 ( 见 图 2-22) 单 击 “ 继 续 ” 按 钮 。 


下 面 开始 创建 分 区 ,添加 交换 空间 和 根 目 录 。 一 般 来 说 ,可 以 选择 512MB— 1GB 作为 
交换 空间 , 剩 下 空间 全 部 用 来 作为 根 目 录 。 在 图 2-23 中 单 击 选中 “空闲 ”, 然 后 再 单 击 十 按 
fn ,创建 交换 空间 。 


单 击 十 按钮 后 ,会 出 现 如 图 2-24 所 示 的 界面 ,可 以 进行 如 下 设置 。 
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要 在 此 设备 上 创建 新 的 空 分 区 表 吗 ? 


您 选择 了 对 整个 设备 进行 分 区 。 如 果 您 要 在 此 设备 上 创建 的 分 区 表 ， 那 么 现 有 的 所 有 分 区 都 将 
被 删除 。 





注意 : 如 果 您 希望 的 话 ， ee a 





图 2-22 新建 分 区 表 确 认 界面 





设备 类 型 挂 载 点 格式 化 ? 大 小 已 用 已 装 系统 
/dev/sda 
A SA ®  21474M8B | 


] 
| + + change 新 建 分 区 表 ... | 还 原 
eT 


/dev/sda ATA VBOX HARDDISK (21.5 GB) 


退出 (Q) 后 退 (B) 现在 安装 () 








图 2-23 创建 交换 空间 界面 








大 小 : 512 = |+ JMS 
新 分 区 的 类 型 : O 主 分 区 
2 运 辑 分 区 
新 分 区 的 位 置 : @ 空间 起 始 位 置 
空间 结束 位 置 
用 于 : | 交换 空间 
取消 (QO 确定 (9) 





图 2-24 交换 空间 的 分 区 设置 界面 


CD 大 小 : 设置 为 512MB。 
(2) 新 分 区 的 类 型 : 选择 “ 主 分 区 ”选项 。 








(3) 新 分 区 的 位 置 : 选择 “空间 起 始 位 置 ” 选 项 。 
(4) 用 于 : 在 下 拉 列 表 中 选择 “交换 空间 ”选项 。 

















设置 完成 后 单 击 “ 确 定 ” 按 钮 。 
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下 面 开始 创建 根 目录 。 在 图 2-25 中 单 击 选中 “空闲 ”, 然 后 再 单 击 十 按钮 ,创建 根 目录 。 


E sda1 (linux-swap) O S 
5107MB 21068 


设备 类 型 HRA 格式 化 ? 大 小 BH 已 装 系统 
/dev/sda 

L| Jdev/sda1 swap © — 810MB 未 知 

5 ESI LEES 


| 


| di i Change 
安装 启动 引导 器 的 设备 : 


/dev/sda ATA VBOX HARDDISK (21.5 GB) 








退出 (Q) 





后 退 (B) 


现在 安装 人) 








图 2-25 


创建 根 目 录 界 面 


单 击 十 按钮 后 ,会 出 现 如 图 2-26 所 示 的 界面 ,可 以 进行 如 下 设置 。 


CD 大 小 : 不 用 改动 ,系统 自动 设 为 剩余 的 空间 。 

(2) 新 分 区 的 类 型 : 选择 “逻辑 分 区 ?选项 。 

(3) 新 分 区 的 位 置 : 选择 "空间 起 始 位 置 ?选项 。 

(4) 用 于 : 在 下 拉 列 表 中 选择 “Ext4 日 志文 件 系 
统 ” 选 项 。 

(5) 挂 载 点 : 在 下 拉 列 表 中 选择 /选项 。 

设置 完成 后 单 击 * 确 定 ” 按 钮 。 

在 出 现 的 界面 中 ( 见 图 2-27) 单 击 “ 现 在 安装 ” 
按钮 。 

单 击 “ 现 在 安装 ”按钮 后 ,会 弹出 如 图 2-28 所 示 
的 界面 ,询问 “将 改动 写 人 磁盘 吗 ?”, 单 击 “ 继 续 ” 
按钮 。 


























大 小 : | 20963 一 +] Me 
新 分 区 的 类 型 : 主 分 区 
O 过 加 分 区 
新 分 区 的 位 置 : O 空间 起 始 位 置 
空间 结束 位 置 
用 于 : | Ext4 日 志文 件 系统 v 
挂 载 点 : | / ”| 
取消 (C) 确定 (9) 
图 2-26 根 目录 的 分 区 设置 界面 
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E sda1 (linux-swap) E sdas (ext4) 





设备 类 型 BRA 格式 化 ? 大 小 已 用 已 装 系 统 








/dev/sda 
/dev/sda1 swap 510MB RA 

/dev/sdas ext4 / E 20961 MB 未 知 

十 一 change 新 建 分 区 表 .. | 还 原 
安装 启动 引导 器 的 设备 

/dev/sda ATA VBOX HARDDISK (21.5 GB) v 








退出 (Q) 后 退 (B) 现在 安装 () 


图 2-27 “现在 安装 ”界面 





将 改动 写 入 磁盘 吗 ? 
如 果 您 继续 ， 以 下 所 列 出 的 修改 内 容 将 被 写 和 磁盘。 否则 您 将 可 以 进行 进一步 的 手动 修改 。 


以 下 设备 的 分 区 表 已 被 改变 : 
SCSI3 (0,0,0) (sda) 


以 下 分 区 将 被 格式 化 : 
SCSI3 (0,0,0) (sda) 设备 上 的 第 1 分 区 将 被 设置 为 swap 
SCSI3 (0,0,0) (sda) 设备 上 的 第 5 分 区 将 被 设置 为 ext4 





图 2-28 询问 界面 


如 果 需 要 在 弹出 的 界面 ( 见 图 2-29) 中 选择 时 区 ,这 里 采用 默认 值 Shanghai 即 可 。 然 后 








单 击 “ 继 续 ” 按 钮 。 
安装 
您 在 什么 地 
| — — — 
后 退 (B) 继续 











图 2-29 选择 时 区 界面 


在 弹出 的 界面 中 ( 见 图 2-30) 选 择 键盘 布局 ,左右 栏目 都 选择 “汉语 ” 即 可 。 
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安装 


键盘 布局 





选择 您 的 键盘 布局 : 
SMRRERHE , WEE) 
法 语 (加 拿 大 ) 

菲律宾 语 











| 汉语 - Tibetan 
汉语 - Tibetan (with ASCII numerals) 
汉语 -Uyghur 





柯尔克孜 语 (吉尔 吉 斯 语 ) 


在 这 里 输入 以 测试 你 





Li LI UI 








图 2-30 选择 键盘 布局 界面 


如 果 需 要 在 弹出 的 界面 ( 见 图 2-31) 中 设置 用 户 名 和 密码 。 建 议 选 择 * 登 录 时 需要 密 
码 ” 单 选 按钮 。 由 于 现在 处 于 学 习 阶 段 ,不 需要 考虑 安全 问题 ,密码 建议 使 用 一 位 的 密码 (如 
把 密码 设置 为 D ,这 样 在 安装 软件 需要 输入 密码 的 时 候 会 比较 方便 。 本 书 设置 用 户 名 为 
dblab。 然 后 单 击 “ 继 续 ” 按 钮 。 








您 的 入 名 :| dblab 


您 的 计算 机 名 ; | dblab-VirtualBox 
与 其 他 计算 机 联络 时 使 用 的 名 称 。 
选择 一 个 用 户 名 : | dblab 


选择 一 个 密码 ; e. enar : wa 
确认 您 的 密码 : e. 
自动 登录 
O 登录 时 需要 密码 
TMERMIR 





后 退 (B) mz 


图 2-31 设置 用 户 名 和 密码 界面 
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单 击 “ 继 续 ” 按 钮 后 会 出 现 图 2-32 所 示 的 界面 ,现在 安装 过 程 就 正式 开始 了 ,系统 会 
动 安装 ,不 要 单 击 Skip 按钮 ,请 耐心 等 候 系统 自动 安装 完成 。 


安装 


JMABISS — INR 


LibreOffice 是 一 个 包括 了 您 创建 文档 . 电 
子 表格 与 演示 文稿 一 切 所 需 的 自由 的 办 公 
套装 软件 。 它 与 Microsoft Office 文件 格式 
RE, 并 带 给 您 需要 的 所 有 功能 , 而 不 需要 
一 分 钱 。 


muse 
LibreOffice 文书 处 理 


LibreOffice 电子 表格 


Libreoffice 演示 文稿 





图 2-32 安装 过 程 正式 开始 的 界面 


安装 完成 以 后 ( 见 图 2-33) 单 击 “ 现 在 重启 ”按钮 即 可 。“ 现 在 重启 ”只 是 重启 虚拟 机 系 
统 的 运行 ,并 不 是 重启 Windows 系统 。 





o 安装 完毕 。 您 需要 重新 启动 计算 机 以 使 用 新 安装 的 系统 。 


现在 重启 





图 2-33 ”提示 “现在 重启 "界面 


重启 以 后 就 可 以 进入 到 Ubuntu 系统 的 登录 界面 ( 见 图 2-34) ,输入 刚才 创建 的 用 户 名 
和 密码 ,就 可 以 进入 Ubuntu 系 了 。 

至 此 ,Linux 系统 就 成 功 安装 完成 。 

进入 Linux 系统 以 后 ,如 果 要 关闭 系统 ,可 以 单 击 系统 界面 右上 角 的 “齿轮 "图标 , 单 击 
后 会 弹出 如 图 2-35 所 示 的 界面 , 单 击 “ 关 机 ?选项 ,就 可 以 关闭 Linux 系统 。 关 闭 Linux 虚 
拟 机 后 ,还 需要 继续 手动 关闭 VirtualBox 软件 。 注 意 , 采 用 虚拟 机 方式 安装 Linux 系统 ， 
Linux 虚拟 机 可 以 被 视 为 运行 在 Windows 系统 上 的 一 个 软件 ,关闭 Linux 虚拟 机 ,只 相当 
于 关闭 了 Windows 系统 上 面 的 一 个 软件 ,Windows 系统 本 身 还 会 继续 正常 运行 。 
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图 2-34 登录 界面 图 2-35 Linux 系统 菜单 


3) 可 能 出 现 的 问题 及 其 解决 方法 

(1) 启动 时 出 现 错误 。 

启动 Linux 虚拟 机 时 可 能 会 出 现 图 2-36 所 示 的 提示 界面 ,然后 ,一 直 停 在 那里 不 动 , 表 
现 出 类 似 “ 死 机 ”的 状态 。 


luait-for-state stop/waiting 





图 2-36 Linux 虚拟 机 启动 时 的 提示 信息 


遇 到 这 种 情况 时 ,可 以 单 击 VirtualBox 软件 界面 右上 角 的 又 号 ,会 弹出 如 图 2-37 所 示 
的 界面 。 

可 以 选择 “强制 退出 ? 单 选 按钮 , 单 击 * 确 定 ”按钮 后 强行 结束 虚拟 机 。 

(2) 屏幕 分 辩 率 低 的 问题 。 

虚拟 机 启动 后 ,Ubuntu 系统 默认 是 以 窗口 模式 打开 ,而 且 分 辩 率 很 低 。 如 果 无 法 接受 
较 低 的 分 辩 率 ,那么 可 以 进行 适当 设置 ,获得 更 大 的 屏幕 分 辩 率 。 如 图 2-38 所 示 , 单 击 
VirtualBox 菜单 中 的 “设备 ?选项 ,选择 安装 增强 功能 ,系统 便 会 自动 安装 好 增强 的 功能 ， 
如 果 出 现 提示 需要 确认 . 则 输入 return 即 可 。 
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BÀ Ubuntu [正在 运行 ] - Oracle VM VirtualBox 


控制 
ITE: sme 


yo] 选择 关 半 方式 
DA gloss 
Q o 正常 关闭 四) 
F euh) 


图 2-37 关闭 虚拟 机 的 界面 图 2-38 设备 菜单 


Host+D 





动 按钮 中 单 击 “ 终 端 " 按 钮 (把 鼠标 放 在 按钮 上 ， 
让 动 一 个 终端 ,进入 Shell 命令 提示 符 状 态 , 可 以 


然后 在 Ubuntu 系统 桌面 中 ,在 快捷 
就 会 显示 出 按钮 的 快捷 功能 , 见 图 2-39) 
在 里 面 输入 和 执行 各 种 Linux 命令 。 


z 





图 2-39 快速 启动 栏 


为 了 获得 更 高 的 屏幕 分 辩 率 ,在 终端 中 输入 如 下 命令 : 





$sudo apt-get install virtualbox- guest- dkms 











最 后 可 以 在 终端 中 输入 exit 退出 终端 ,返回 到 Ubuntu 系统 桌面 。 在 系统 桌面 中 单 击 
顶部 菜单 最 右边 的 “齿轮 ”按钮 ,在 弹出 的 界面 中 ,选择 “关机 ”选项 即 可 ,然后 ,在 弹出 的 界面 
中 选择 “重启 ”。 

重启 后 再 次 登录 Ubuntu 系统 , 单 击 系 统 桌面 右上 角 的 “齿轮 ?按钮 ,在 弹出 的 界面 中 单 
击 “ 系 统 设置 ”选项 ,会 弹出 如 图 2-40 所 示 的 界面 。 

单 击 “ 显 示 ” 图 标 按钮 ,出 现 如 图 2-41 所 示 的 界面 。 

在 这 个 界面 中 ,可 以 设置 合适 的 分 辩 率 ,设置 好 后 单 击 右 下 角 的 “应 用 ”按钮 ,会 弹出 如 
图 2-42 所 示 的 界面 , 单 击 “ 保 持 当前 配置 "就 完成 了 分 辨 率 的 修改 。 

G) 网 络 无 法 连接 问题 。 

按照 上 述 过 程 完成 Ubuntu 系统 安装 以 后 ,大 部 分 计算 机 都 可 以 正常 上 网 ,访问 互联 
网 。 但 是 ,仍然 会 有 部 分 计算 机 可 能 会 出 现 无 法 访问 互联 网 的 情况 ,就 无 法 下 载 各 种 软件 和 
更 新 。 如 果 出 现 无 法 连接 互联 网 的 情况 ,就 需要 对 虚拟 机 的 网 络 配置 进行 修改 。 需 要 进入 
VirtualBox 的 “设置 ,然后 ,选择 配置 “网 络 ” ,在 连接 方式 中 选择 “桥接 网 卡 ”。 这 样 ,启动 进 
入 Ubuntu 以 后 ,就 可 以 使 用 网 络 了 。 
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图 2-40 系统 设置 界面 
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图 2-41 显示 器 设置 界面 











需要 注意 的 是 ,采用 虚拟 机 方式 安装 Linux 系统 时 , 当 在 Windows 中 运行 Linux 虚拟 
机 时 ,起 初 Linux 虚拟 机 能 够 正常 连接 互联 网 ,但 是 ,一 旦 把 计算 机 休眠 或 者 待机 时 ,再 次 把 
计算 机 唤醒 进入 工作 状态 以 后 ,可 能 会 出 现 Windows 系统 可 以 正常 联网 但 是 Linux 虚拟 机 





无 法 联网 的 情况 ,这 时 ,只 能 关闭 Linux 虚拟 机 ,再 次 
可 以 正常 联网 。 
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图 2-42 显示 器 配置 更 改 后 的 提示 界面 


4 利用 FIP 软 件 向 Ubuntu 传输 文件 


由 于 大 多 数 大 数据 初学 者 对 Windows 系统 比较 熟悉 ,因此 ,本 书 采用 虚拟 机 方式 安装 
Linux 系统 ( 即 Ubuntu 系统 )。 在 后 续 的 学 习 过 程 中 ,经 常 需要 把 一 些 资料 从 Windows 系 
统 中 传输 到 Ubuntu 系统 中 ,因此 ,这 里 介绍 具体 的 实现 方法 。 


1) 设置 网 络 连接 方式 

按照 前 面 的 虚拟 机 安装 方法 完成 Ubuntu 系统 安装 以 后 ,Ubuntu 系统 可 以 顺利 访问 互 
联网 ,例如 ,这 时 进入 Ubuntu 系统 ,打开 一 个 浏览 器 (如 默认 安装 好 的 火狐 浏览 器 ) ,就 可 以 
访问 新 浪 百度、 腾讯 等 网 站 了 。 但 是 ,这 时 Windows 系统 中 的 一 些 软件 (比如 FTP) ,无 法 
连接 到 Ubuntu 系统 ,为 什么 呢 ? 

在 解答 这 个 问题 之 前 ,要 先 关 闭 虚 拟 机 ,关闭 VirtualBox 软件 。 然 后 ,重新 打开 
VirtualBox 软件 ,在 VirtualBox 界面 的 左上 角 , 单 击 * 齿 轮 ” 图 标的 “设置 按钮 ,打开 设置 界 
面 ,在 左边 栏目 中 选择 “网 络 ”, 会 出 现 如 图 2-43 所 示 的 设置 界面 。 

可 以 看 出 ,这 时 的 网 络 连接 方式 是 “网 络 地 址 转换 (NAT)”。 如 果 把 Windows 系统 称 
为 “主机 ,把 VirtualBox 上 的 Ubuntu 系统 称 为 “虚拟 机 ”, 采 用 这 种 连接 方式 时 ,虚拟 机 可 
以 访问 主机 ,但 是 ,主机 无 法 访问 虚拟 机 。 所 以 ,在 这 种 连接 方式 下 , Windows 系统 上 的 
FTP 软件 是 无 法 连接 访问 Ubuntu 系统 中 的 FTP 服务 器 的 。 

为 了 让 虚拟 机 能 够 访问 主机 ,同时 让 主机 也 能 够 访问 虚拟 机 ,就 必须 更 改 网 络 连接 方 
式 。 如 图 2-44 Bron ,需要 在 “连接 方式 ”中 选择 “桥接 网 卡 ”. 在 “界面 名 称 ” 后 面 的 下 拉 列 表 
框 中 选择 计算 机 当前 连接 到 互联 网 的 网 卡 , 然 后 , 单 击 “ 确 定 ” 按 钮 。 经 过 上 述 设置 后 ,再 启 
动 进入 Ubuntu 系统 ,就 可 以 让 主机 访问 虚拟 机 了 。 
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图 2-43 VirtualBox 网 络 设置 界面 
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2-44 修改 网 络 连接 方式 


2) 设置 FTP 软件 

本 书 采用 的 FTP 软件 是 FileZilla, 可 以 登录 Windows 系统 打开 浏览 器 ,访问 本 书 官网 
进行 下 载 ,FileZilla 安装 文件 位 于 “下 载 专 区 ”的 “软件 ”目录 下 ,文件 名 是 FileZilla_3. 17. 0. 0 
_win64_setup. exe。 下 载 到 FileZilla 安装 文件 以 后 ,安装 在 Windows 系统 上 。 

为 了 能 够 让 FTP 软件 连接 到 Linux 虚拟 机 (Ubuntu 系统 ) ,需要 获得 Linux 虚拟 机 的 
IP 地 址 。 登 录 Windows 系统 ,打开 虚拟 机 软件 VirtualBox, 登 录 Ubuntu 系统 ,然后 ,打开 
一 个 终端 (可 以 使 用 快捷 键 Ctrl 十 Alt 十 T) ,进入 Shell 命令 提示 符 状 态 , 输 入 命令 ifconfig, 
会 得 到 如 图 2-45 所 示 的 结果 。 其 中 ,“inet 地 址 : 192. 168. 0. 104” 表 示 Linux 虚拟 机 的 IP. 
地 址 是 192. 168. 0. 104。 每 次 重新 启动 虚拟 机 ,或 者 在 不 同 的 地 方 (实验 室 或 者 宿舍 ) 启 动 
虚拟 机 ,IP 地 址 都 可 能 会 发 生变 化 ,所 以 ,每 次 登录 Ubuntu 系统 以 后 ,都 需要 重新 查询 IP 
地 址 。 
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图 2-45 在 Linux 系 统 中 查询 IP 地 址 


获得 Linux 虚拟 机 IP 地 址 信息 以 后 ,就 可 以 使 用 FTP 软件 FileZilla 连接 Linux 虚拟 
机 了 。 打 开 FileZilla ,启动 后 的 界面 如 图 2-46 所 示 。 
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图 2-46 FileZilla 启动 后 的 界面 





if 界 面 左上 角 莱 单 的 “文件 ?选项 ,在 
图 2-47 所 示 的 界面 ,用 于 设置 FTP 连接 参数 。 





出 的 菜单 中 选择 “站 点 管理 器 ”, 会 出 
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图 2-47 FTP 软件 设置 界面 
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单 击 界面 左下 角 的 “新 站 点 ”按钮 ,然后 ,开始 设置 各 种 连接 参数 ,具体 如 下 。 

OD 主机 : 设置 为 Linux 虚拟 机 的 TP 地 址 192. 168. 0. 104, 

(2) 端口 : 可 以 空 着 ,使 用 默认 端口 。 

(3) 协议 : 选择 SFTP-SSH File Transfer Protocol。 

(4) 登录 类 型 : 选择 “正常 ”。 

(5) 用 户 : 可 以 使 用 之 前 安装 Ubuntu 系统 时 创建 的 用 户 名 。 

(6) 密码 ; 可 以 使 用 之 前 安装 Ubuntu 系统 时 创建 的 用 户 密码 。 

设置 完成 以 后 , 单 击 界面 下 边 的 “连接 ”按钮 ,开始 连接 Linux 虚拟 机 。 连 接 成 功 以 后 ， 
会 显示 如 图 2-48 所 示 的 界面 ,就 可 以 使 用 FTP 软件 FileZilla 向 Ubuntu 系统 中 传输 文 
HT. 
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图 2-48 连接 成 功 后 的 FTP 软件 界面 


从 图 2-48 中 可 以 看 出 ,FileZilla 连接 成 功 以 后 的 界面 包括 两 个 主要 区 域 。 其 中 , 左 侧 
的 “本 地 站 点 ”区域 ,会 显示 Windows 系统 中 的 目录 , 单 击 某 个 目录 以 后 ,下 面 就 会 显示 目录 
中 的 文件 信息 。 右 边 的 “远程 站 点 ”区域 ,是 Linux 虚拟 机 中 的 目录 ,可 以 选择 一 个 目录 , 作 
为 文件 上 传 后 要 存放 的 位 置 。 当 需要 把 Windows 中 的 某 个 文件 上 传 到 Linux 虚拟 机 中 时 ， 
首先 在 “远程 站 点 ”中 选择 好 上 传 后 的 文件 所 要 存放 的 目录 ;然后 ,在 “本 地 站 点 ”中 选择 需要 
上 传 的 文件 ,并 在 该 文件 名 上 右 击 ,在 弹出 的 菜单 中 选择 上传”, 就 可 以 轻松 完成 文件 的 上 
传 操 作 。 如 果 要 把 Linux 虚拟 机 中 的 某 个 文件 下 载 到 Windows 系统 中 ,可 以 首先 在 “本 地 
站 点 "中 选择 好 下 载 后 的 文件 所 要 存放 的 目录 ,然后 ,在 “远程 站 点 "中 找到 要 被 下 载 的 文件 ， 
在 文件 名 上 碳 击 ,在 弹出 的 菜单 中 选择 “下 载 ” ,就 可 以 完成 文件 的 下 载 。 

这 里 需要 注意 的 是 ,Linux 系统 对 文件 访问 权限 有 着 严格 的 规定 ,如 果 目 录 和 文件 的 访 
问 权 限 没有 授权 给 某 个 用 户 , 那 么 ,该 用 户 是 无 法 访问 这 些 目录 和 文件 的 。 所 以 , 当 使 用 
FileZilla 连接 Linux 虚拟 机 时 ,如 果 采 用 用 户 名 hadoop 连接 ,那么 ,就 只 能 把 文件 上 传 到 
Ubuntu 系统 中 hadoop 用 户 的 主 目录 ,也 就 是 /home/hadoop 目录 ,是 无 法 对 其 他 目录 进行 
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操作 的 ,企图 把 文件 传输 到 其 他 目录 下 就 会 失败 。 如 果 要 顺利 传输 到 其 他 目录 ,就 必须 登录 
Ubuntu 系统 ,使 用 root 权限 把 某 个 目录 的 权限 赋予 给 hadoop 用 户 ( 后 面 的 Linux 系统 基 
本 命令 会 涉及 为 用 户 授权 的 方法 ) 。 


2.2.4 生成 Linux 虚拟 机 镜像 文件 


采用 虚拟 机 方式 安装 好 Linux 系统 以 后 ,后 面 还 会 在 Linux 系统 中 继续 安装 大 量 的 其 
他 软件 ,进行 各 种 各 样 费时 费力 的 配置 。 因 此 ,一 个 安装 成 功 以 后 能 够 正常 运行 各 种 大 数据 
软件 的 Linux 系统 ,已 经 具有 备份 和 传播 的 价值 ,我们 
可 以 把 系统 导出 成 镜像 文件 ,然后 ,在 其 他 计算 机 上 ， 
就 可 以 直接 导入 镜像 文件 ,立即 就 可 以 完成 Linux 系 
统 的 安装 ,而 且 里 面 已 经 包含 了 大 量 大 数据 软件 ,这 样 
就 大 大 节省 了 系统 和 软件 安装 时 间 ; 此 外 ,导出 的 镜像 
文件 ,也 可 以 作为 系统 备份 ,一 旦 系统 出 现 问题 ,就 可 
以 立即 导入 镜像 文件 ,重新 生成 系统 ,省 时 省 力 。 


1. 导出 生成 镜像 文件 

打开 虚拟 机 软件 VirtualBox, 单 击 界面 左上 角 的 
“管理 ”菜单 ,会 弹出 如 图 2-49 所 示 的 子 菜单 。 

在 这 个 子 菜单 中 单 击 “ 导 出 虚拟 电脑 ”出 现 如 
图 2-50 所 示 的 界面 。 















要 导出 的 虚拟 电脑 
请 选择 要 导出 的 虚拟 电脑 。 可 以 选择 多 个 虚拟 电脑 。 务 必 注意 先 关闭 这 
些 虚拟 电脑 。 
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2-50 导出 虚拟 机 界面 














单 击 * 下 一 步 ?按钮 会 弹出 如 图 2-51 所 示 的 界面 。 

在 存储 设置 界面 中 的 “文件 ”后 面 的 文本 框 中 设置 镜像 文件 的 存储 位 置 ,在 “格式 "后面 
选择 生成 镜像 文件 的 格式 ,如 OVF 1.0。 然 后 , 单 击 “ 下 一 步 ? 按 钮 ,会 弹出 如 图 2-52 所 示 的 
界面 。 





请 选择 要 导出 OVF/OVA. 的 文件 名 > 
如 果 您 使 用 ova 文件 扩展 名 ,那么 所 有 文件 都 将 合并 为 一 个 “开放 式 
虚拟 化 格式 包 ”。 


如 果 您 使 用 ovr 扩展 名 ， 将 分 成 若干 独立 的 文件 。 
不 允许 其 他 扩展 名 。 


X: D:\ 我 的 文档 \Ubuntu. ova 


fx 
ED 瑟 入 Manifest ZEW 






























图 2-51 存储 设置 界面 


虚拟 电脑 导出 设置 


这 是 导出 的 虚拟 电脑 的 描述 信息 。 双 击 每 行 可 以 修改 。 
配置 
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图 2-52 虚拟 机 导出 设置 界面 


在 该 界面 中 单 击 底部 的 “导出 ?按钮 ,就 可 以 生成 Linux 虚拟 机 镜像 文件 。 

本 书 官网 提供 了 一 个 已 经 制作 完成 的 Linux 虚拟 机 镜像 文件 .文件 名 是 Ubuntul6. 04- 
hadoop2. 7. l-sparkl. 6. 2-XMU-linziyu-20161123. ova。 下 载 该 镜像 文件 后 , 打开 
VirtualBox 软件 ,就 可 以 导入 生成 Linux 虚拟 机 。 该 镜像 文件 所 包含 的 Linux 虚拟 机 ,包括 
以 下 系统 和 软件 : Ubuntu 16. 04, Hadoop 2. 7. 1, HBase 1. 1. 5, MongoDB 3. 2. 7, Eclipse 3. 8 
和 Spark 1.6. 2 等 。 该 虚拟 机 镜像 文件 仅 供 参考 ,为 了 更 好 地 学 习 大 数据 软件 的 安装 和 使 
用 ,建议 读者 在 初学 阶段 不 要 直接 使 用 镜像 文件 生成 Linux 系统 ,最 好 按照 本 书 逐 步 安装 
Linux 系统 和 各 种 大 数据 软件 。 在 学 习 完 本 书 以 后 ,后 期 如 果 需 要 快速 安装 Linux 系统 和 
大 数据 软件 时 ,再 使 用 本 书 提供 的 虚拟 机 镜像 文件 。 
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2 导入 Linux 虚拟 机 镜像 文件 


导入 Linux 虚拟 机 镜像 文件 的 操作 比较 简单 ,打开 虚拟 机 软件 VirtualBox, 单 击 界面 
左上 角 的 “管理 ”菜单 ,在 弹出 的 子 菜单 中 选择 “导入 虚拟 电脑 ”; 然 后 ,在 弹出 的 界面 中 找 
到 虚拟 机 镜像 文件 , 单 击 “ 下 一 步 ” 按 钮 ,在 弹出 的 界面 中 单 击 * 导 入 ”按钮 ,就 可 以 顺利 完 
成 导入 ,生成 一 个 可 用 的 Linux 虚拟 机 。 设 置 完成 后 ,就 可 以 启动 这 个 虚拟 机 ,登录 Linux 


2.3 Linux 系统 及 相关 软件 的 基本 使 用 方法 


下 面 介绍 Linux 系统 中 需要 了 解 的 相关 知识 以 及 基本 使 用 方法 ,以 确保 后 续 顺 利 学 习 
和 使 用 Linux 系统 及 各 种 大 数据 软件 。 


2.3.1 Shell 


Shell 是 Linux 系统 的 用 户 界面 ,提供 了 用 户 与 Linux 系统 内 核 进行 交互 操作 的 一 种 接 
口 , 它 接收 用 户 输入 的 命令 并 把 它 送 入 内 核 去 执行 。 当 人 们 在 Linux 系统 中 打开 一 个 终端 
(可 以 采用 快捷 键 Ctrl 十 Alt 十 T) 时 ,就 进入 了 Shell 命令 提示 符 状 态 ,在 里 面 输入 的 用 户 命 
令 , 都 会 被 送 入 Linux 内 核 去 执行 。 每 个 Linux 系统 的 用 户 可 以 拥有 自己 的 Shell, 用 以 满 
足 他 们 自己 专门 的 Shell 需要 。 正 如 Linux 本 身 拥有 很 多 发 行 版 一 样 ,Shell 也 有 多 种 不 同 
的 版 本 ,主要 有 下 列 版 本 的 Shell。 

(1) Bourne Shell: 由 贝尔 实验 室 开 发 。 

(2) BASH: 是 GNU 的 Bourne Again Shell, 是 GNU 操作 系统 上 默认 的 Shell, 

(3) Korn Shell: 是 对 Bourne Shell 的 发 展 ,在 大 部 分 内 容 上 与 Bourne Shell 兼容 。 

(4) C Shell: 是 SUN 公司 Shell 的 BSD 版 本 。 

(5) Z Shell; Z 是 最 后 一 个 字母 ,也 就 是 终极 Shell, IT BASH, ksh 的 重要 特性 , 同 
时 又 增加 了 自己 独 有 的 特性 。 


2.3.2 root 用 户 


对 于 Linux 系统 而 言 ,超级 用 户 一 般 命名 为 root, 相当 于 Windows 系统 中 的 
Administrator 用 户 。root 是 系统 中 唯一 的 超级 用 户 , 具 有 系统 中 所 有 的 权限 ,如 启动 或 停 
止 一 个 进程 ,删除 或 增加 用 户 、 增 加 或 者 禁用 硬件 等 。Linux 中 的 root 用 户 比 Windows 的 
Administrator 用 户 的 能 力 更 大 ,足以 把 整个 系统 的 大 部 分 文件 删 掉 ,导致 系统 完全 毁坏 ,不 
能 再 次 使 用 。 所 以 ,用 root 进行 不 当 的 操作 是 相当 危险 的 ,轻微 的 可 以 造成 死机 ,严重 的 其 
至 不 能 开机 。 因 此 ,在 实际 使 用 中 ,除非 确实 需要 .一般 情况 下 都 不 推荐 使 用 root 用 户 登 录 
Linux 系统 进行 日 常 的 操作 。 建 议 单独 建立 一 个 普通 的 用 户 , 来 学 习 大 数据 软件 安装 和 开 
展 编程 实践 。 例 如 ,本 书 全 部 采用 单独 建立 的 hadoop 用 户 来 开展 实验 。 


2.3.3 创建 普通 用 户 
本 书 需要 创建 一 个 名 称 为 hadoop 的 普通 用 户 , 后 续 所 有 操作 都 会 使 用 该 用 户 名 登录 到 
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Linux 系统 。 刚 才 我 们 在 安装 Linux 系统 时 ,设置 了 一 个 名 称 为 dblab 的 用 户 , 现 在 就 可 以 
使 用 dblab 用 户 登录 Linux 系统 ;然后 打开 一 个 终端 (可 以 使 用 快捷 键 Ctrl 十 Alt 十 T) ,使 用 
如 下 命令 创建 一 个 用 户 hadoop: 

















$sudo useradd -m hadoop -s /bin/bash 











这 条 命令 创建 了 可 以 登录 的 hadoop JH P! ,并 使 用 /bin/bash 作为 Shell, 
接着 使 用 如 下 命令 为 hadoop 用 户 设置 密码 : 





$sudo passwd hadoop 











由 于 是 处 于 学 习 阶 段 ,不 需要 把 密码 设置 得 过 于 复杂 ,本 书 把 密码 简单 设置 为 hadoop， 
即 用 户 名 和 密码 相同 ,方便 记忆 。 需 要 按照 提示 输入 两 次 密码 。 

然后 可 为 hadoop 用 户 增加 管理 员 权 限 , 以 方便 部 署 ,避免 一 些 对 于 新 手 来 说 比较 棘手 
的 权限 问题 ,命令 如 下 : 





$sudo adduser hadoop sudo 











最 后 单 击 屏幕 右上 角 的 “齿轮 "图标 ,选择 “注销 ”, 注 销 当前 登录 的 dblab 用 户 ,返回 到 
Linux 系统 的 登录 界面 ( 见 图 2-53)。 在 登录 界面 中 选择 刚 创建 的 hadoop 用 户 并 输入 密码 
进行 登录 。 





图 2-53 Linux 系统 登录 界面 
再 次 说 明 本 书 以 后 学 习 过 程 中 全 部 采用 hadoop 用 户 登 录 Linux 系统 。 
2.3.4 sudo 命令 








sudo 是 Linux 系统 的 管理 指令 ,管理 员 可 以 授权 给 一 些 普通 用 户 去 执行 一 些 需 要 root 
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权限 执行 的 操作 。 这 样 不 仅 减少 了 root 用 户 的 登录 和 管理 时 间 ,同样 也 提高 了 安全 性 。 本 
书后 面 在 执行 软件 安装 时 ,都 是 采用 hadoop 用 户 登 录 , 而 不 是 root 用 户 登录 。 因 此 ,使 用 
hadoop 用 户 登录 Linux 系统 以 后 , 当 需 要 执行 只 有 root 用 户 有 权限 执行 的 命令 时 ,都 要 在 
命令 前 面 加 上 sudo ,才能 够 顺利 执行 ,如 果 不 加 上 sudo, 就 会 被 拒绝 执行 。 当 使 用 sudo 命 


令 时 ,会 要 求 输入 当前 用 户 的 密码 。 


需要 注意 的 是 , Windows 系统 中 ,用 户 输入 密码 ,都 会 


在 屏幕 上 显示 * 号 作为 反馈 ,但 是 ,在 Linux 系 统 中 , 当 输入 密码 时 ,不 会 在 屏幕 上 显示 * 号 
作为 反馈 ,这 时 ,不 要 误 以 为 系统 死机 或 者 键盘 出 了 问题 ,只 要 输 完 密码 后 按 Enter 键 即 可 。 


2.3.5 常用 的 Linux 系统 命令 


本 书 以 “最 小 化 学 习 ” 为 基本 原则 ,只 介绍 本 书后 续 学 习 过 程 需 要 用 到 的 Linux 命令 ,并 
以 实例 的 形式 进行 介绍 ( 见 表 2-1) ,更 多 其 他 Linux 命令 请 参考 其 他 网 络 资料 和 书籍 。 











表 2-1 Linux 常用 操作 命令 及 其 含义 
命 令 含 x 
cd /home/hadoop 把 /home/hadoop 设置 为 当前 目录 
cd.. 返回 上 一 级 目录 
进入 到 当前 Linux 系统 登录 用 户 的 主 目录 (或 主 文件 夹 )。 在 
dè Linux 系统 中 ,一 代表 的 是 用 户 的 主 文件 夹 , 即 “/home/ 用 户 


名 ”这 个 目录 ,如 果 当 前 登录 用 户 名 为 hadoop, 则 一 就 代表 
/home/hadoop/ 这 个 目录 





查看 当前 目录 中 的 文件 





查看 文件 和 目录 的 权限 信息 





cat /proc/version 


查看 Linux 系统 内 核 版 本 信息 





cat /home/hadoop/word. txt 


把 /home/hadoop/word. txt 这 个 文件 全 部 内 容 显 示 到 屏幕 上 





cat filel file2>file3 


把 当前 目录 下 的 filel 和 file2 两 个 文件 进行 合并 生成 文件 
file3 





head -5word. txt 


把 当前 目录 下 的 word. txt 文件 中 的 前 5 行内 容 显示 到 屏幕 上 





cp /home/hadoop/ word. txt /usr/local/ 


Tt /home/hadoop/ word. txt 文件 复制 到 /usr/local 目录 下 





rm . / word. txt 


删除 当前 目录 下 的 word. txt 文件 





rm - r./test 


删除 当前 目录 下 的 test 目录 及 其 下 面 的 所 有 文件 





rm - rtest* 


删除 当面 目录 下 所 有 以 test 开头 的 目录 和 文件 





ifconfig 


查看 本 机 IP 地 址 信息 





exit 





退出 并 关闭 Linux 终端 





2.3.6 文件 解压 缩 


大 数据 软件 安装 包 通 常 都 是 一 


个 压缩 文件 ,文件 名 以 . tar. gz 为 后 缀 (或 者 简写 为 


.tgz) ,这 种 压缩 文件 必须 经 过 解压 缩 以 后 才能 够 安装 。 在 Linux 系统 中 ,可 以 使 用 tar 命令 
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对 后 绥 名 为 . tar. gz( 或 . tgz) 的 压缩 文件 进行 解压 。 通 常 可 以 采用 如 下 形式 的 命令 : 








$tar - zxf /home/hadoop/ 下 载 /hbase-1.1.2-bin.tar.gz -C /usr/local 








上 面 命令 表示 把 “/home/hadoop/ 下 载 /hbase-1. 1. 2-bin. tar. gz” 这 个 文件 解压 缩 后 保 
存 到 /usr/local 目录 下 。 其 中 ,各 个 参数 的 含义 如 下 。 

(1) x :从 tar 包 中 把 文件 提取 出 来 。 

(2) z :表示 tar (LIEBE gzip 压缩 过 的 ,所 以 解压 时 需要 用 gunzip 解压 。 

O) f :表示 后 面 跟着 的 是 文件 。 

OD C; 表示 文件 解压 后 转 到 指定 的 目录 下 。 


2.3.7 常用 的 目录 


Linux 系统 的 根 目录 /下 ,存在 很 多 个 目录 ,其 中 有 两 个 目录 ,是 本 书 学 习 过 程 中 经 常用 
到 的 : 一 个 是 /home 目录 ; 另 一 个 是 /usr 目录 。/home 目录 包含 了 各 个 用 户 的 用 户 目录 ,每 
当 在 Linux 系统 中 新 建 一 个 普通 用 户 时 ,系统 就 会 自动 为 这 个 用 户 创建 用 户主 目录 ( 主 文件 
夹 ) ,例如 ,创建 hadoop 用 户 时 ,就 会 自动 创建 用 户主 目录 /home/hadoop 及 其 下 面 的 各 个 
子 目录 。 假 设 当 前 采用 hadoop 用 户 登录 了 Linux 系统 ,这 时 执行 下 面 命令 : 





$cd ~ 











该 命令 执行 后 ,就 会 进入 到 hadoop 用 户 的 主 文件 夹 , 也 就 是 进入 到 /home/hadoop 
目录 。 

/usr 目录 是 UNIX Software Resource 的 简写 ,表示 这 里 是 各 种 软件 安装 的 目录 。 对 
于 /usr 目录 而 言 ,只 需要 关注 它 下 面 的 子 目 录 /usr/local, 一 般 由 用 户 安装 的 软件 都 建议 安 
装 到 该 目录 下 ,所 以 ,本 书 所 有 大 数据 软件 都 会 被 安装 到 /usr/local 这 个 目录 下 。 


2.3.8 目录 的 权限 


Linux 系统 对 文件 权限 有 着 严格 的 规定 ,如 果 一 个 用 户 不 具备 权限 ,将 无 法 访问 目录 及 
其 下 面 的 文件 。 例 如 ,使 用 hadoop 用 户 登 录 Linux 系统 以 后 ,从 网 络 上 下 载 了 HBase 安装 
包 文 件 ,把 文件 解压 缩 到 /usr/local/ 目 录 下 ,会 得 到 一 个 类 似 /usr/local/hbase 这 样 的 目录 ， 
这 时 ,hadoop 用 户 并 不 是 /usr/local/hbase 这 个 目录 的 所 有 者 ,无 法 对 该 目录 进行 相关 操 
作 , 从 而 无 法 正常 使 用 HBase。 这 时 ,就 必须 采用 chown 命令 进行 授权 ,让 hadoop 用 户 拥 
有 对 该 目录 的 权限 ,具体 命令 如 下 : 











$sudo chown - R hadoop /usr/local/hbase 





本 书 安装 其 他 大 数据 软件 ,都 会 涉及 类 似 问题 ,所 以 ,必须 熟练 使 用 该 命令 。 
2.3.9 更 新 APT 
APT 是 一 款 非常 优秀 的 软件 管理 工具 ,Linux 系统 采用 APT 来 安装 和 管理 各 种 软件 。 
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安装 成 功 Linux 系统 以 后 ,需要 及 时 更 新 APT 软件 ,否则 ,后 续 一 些 软件 可 能 无 法 正常 安 
装 。 登 录 Linux 系统 ,打开 一 个 终端 (可 以 使 用 快捷 键 Ctrl 十 Alt 十 T) ,进入 Shell 命令 提示 
符 状 态 ,然后 输入 下 面 命令 : 





$sudo apt- get update 











apt-get 命令 执行 以 后 ,Linux 系统 就 会 开始 从 网 络 上 下 载 APT 的 各 种 更 新 。 若 出 现 
“Hash 校 验 和 不 符 ” 的 提示 ( 见 图 2-54) , 则 可 通过 更 改 软件 源 来 解决 。 若 没有 该 问题 , 则 不 
需要 更 改 。 另 外 ,从 软件 源 下 载 某 些 软件 的 过 程 中 ,可 能 由 于 网 络 方面 的 原因 出 现 没 法 下 载 
的 情况 ,那么 建议 更 改 软件 源 。 不 过 ,需要 说 明 的 是 ,在 后 续 安 装 各 种 大 数据 软件 过 程 中 , 即 
使 出 现 “Hash 校 验 和 不 符 ” 的 提示 ,一 般 也 不 会 影响 Hadoop 等 软件 的 正常 安装 。 





图 2-54 “ 校 验 和 不 符 ” 的 提示 信息 


如 果 需 要 更 改 软 件 源 , 需 要 在 Linux 系统 桌面 右上 角 单 击 “ 齿 轮 ” 图 标 ,在 弹出 的 菜单 中 
选择 单 击 “ 系 统 设置 ”, 然 后 在 弹出 的 界面 中 单 击 “ 软 件 和 更 新 "图标 ,会 弹出 如 图 2-55 所 示 
的 界面 。 


软件 和 更 新 | 
Ubuntu 软件 | 其 他 软件 “更 新 “身份 验证 “附加 驱动 
可 从 互联 网 下 载 
Canonical 支持 的 免费 和 开源 软件 (main) 
社区 维护 的 免费 和 开源 软件 (universe) 
设备 的 专 有 驱动 (restricted) 
有 版 权 和 合法 性 问题 8 的 软件 (multiverse) 





Oura 
下 载 自 : || 中 国 的 服务 器 X 
TAKERE 








图 2-55 “软件 和 更 新 ”界面 





单 击 “ 下 载 自 ” 右 侧 的 下 拉 列 表 框 ,选择 “其 他 节点 ”, 会 弹出 如 图 2-56 所 示 的 界面 。 

在 服务 器 列表 中 选择 mirrors. aliyun. com, 并 单 击 右 下 角 的 “选择 服务 器 ”按钮 ,这 时 ， 
需要 输入 用 户 密码 。 最 后 ,会 显示 如 图 2-57 所 示 的 界面 。 

只 要 在 该 界面 上 单 击 “ 关 闭 ” 按 钮 即 可 ,然后 .会 出 现 如 图 2-58 所 示 的 界面 。 

单 击 “ 重 新 载 人 ”按钮 ,然后 耐心 等 待 更 新 即 可 。 更 新 完成 后 系统 会 自动 关闭 “软件 和 更 
新 ”这 个 窗口 。 经 过 上 述 步 又 以 后 ,再 去 执行 sudo apt-get update 命令 ,如 果 这 时 执行 apt- 
get 命令 还 是 提示 错误 ,继续 按照 上 面 修 改 软件 源 的 方法 ,选择 其 他 服务 器 节点 ,如 
mirrors. 163. com, 再 次 进行 尝试 。 更 新 成 功 后 ,再 次 执行 sudo apt-get update 命令 就 正 
常 了 。 


第 2 章 ”Linux 系 统 的 安装 和 使 用 










[p 选择 最 佳 服务 器 (S) 


linux xjtuns.cn 
mirror.bjtu.edu.cn 

mirror.lupaworld.com 
mirrorlzuedu cn 







mirror.neu.edu.cn 
mirror.skyshe.com 






协议 : | http " 


取消 (QO 选择 服务 器 (5) 


图 2-56 “选择 下 载 服务 器 ”界面 











下 载 自 : | http;//mirrors.aliyun.com/ubuntu X 





TAKERE 
Ubuntu 14.04 'Trusty Tahr’ 光盘 
支持 


官方 支 
版 权 受 限 


还 原 (V) 关闭 (QO 





图 2-57 选择 服务 器 相关 界面 


o 可 用 软件 的 列表 信息 已 过 时 
EE 入 或 已 变更 的 软件 源 来 安装 或 更 新 软件 包 ， 您 必须 重新 载 入 可 用 软件 包 


您 需要 一 个 有 效 的 互联 网 连接 才能 继续 。 


图 2-58 “可 用 软件 的 列表 信息 已 过 时 ”提示 界面 





2.3.10 切换 中 英文 输入 法 


Ubuntu 中 终端 输入 的 命令 一 般 都 是 使 用 英文 输入 。 但 是 ,有 时 候 也 会 需要 输入 中 文 。 
Linux 系统 的 中 英文 输入 法 的 切换 方式 是 使 用 Shift 键 来 切换 ,或 者 ,也 可 以 单 击 系统 桌面 
顶部 菜单 的 输入 法 按钮 进行 切换 。Ubuntu 自 带 的 Sunpinyin 中 文 输入 法 已 经 可 以 很 好 满 
足 中 文 输入 要 求 , 不 需要 额外 安装 中 文 输入 法 。 


2.3.11 vim 编辑 器 的 使 用 方法 


vim 编辑 器 是 Linux 系统 上 最 著名 的 文本 /代码 编辑 器 ,是 vi 编辑 器 的 加 强 版 ,可 以 帮 
助人 们 完成 文件 的 创建 和 代码 的 编写 。 登 录 Linux 系统 (本 书 全 部 统一 使 用 hadoop 用 户 登 
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录 ) ,打开 一 个 终端 ,然后 ,执行 下 面 命令 完成 vim 编辑 器 的 安装 : 








$sudo apt-get install vim 








执行 上 面 命令 以 后 ,如 果 屏 幕 上 出 现 信息 要 求 进行 确认 ,在 提示 处 输入 y 即 可 。 
下 面 演示 一 个 实例 来 了 解 vim 编辑 器 的 使 用 方法 。 假 设 要 在 /home/hadoop/ 目 录 下 新 
建 一 个 文件 word. txt, 里 面包 含 一 些 单词 。 可 以 执行 下 面 命令 创建 一 个 word. txt 文件 : 





$cd~ 
$vim word.txt 











通过 上 面 命令 就 打开 了 vim 编辑 器 ,然后 ,需要 键盘 敲 击 输入 一 个 英文 字母 i, 进入 编辑 
状态 以 后 才能 修改 内 容 , 这 时 ,就 可 以 向 word. txt 文件 中 输入 一 些 单词 。 修 改 后 ,需要 按键 
盘 上 的 Esc 键 退出 vim 的 编辑 状态 ,之 后 有 以 下 几 种 选择 。 

A) 从 键盘 输入 “:wq”3 个 英文 字符 ,然后 按 Enter 键 ,表示 保存 文件 并 退出 。 

(2) 从 键盘 输入 *:q” 两 个 英文 字符 ,然后 按 Enter 键 ,表示 不 保存 并 退出 。 如 果 本 次 编 
辑 过 程 只 是 查看 了 文件 内 容 , 没 有 对 文件 做 任何 修改 , 则 可 以 顺利 退出 。 但 是 ,如 果 已 经 修 
改 了 文件 内 容 , 则 vim 编辑 器 不 允许 就 这 样 退 出 ,会 给 出 提示 信息 ,这 时 ,要 想 不 保存 就 退 
出 vim 编辑 器 ,就 要 采用 下 面 一 种 方式 , 即 输入 :q!”。 

(3) 从 键盘 输入 ":q!1”3 个 英文 字符 ,然后 按 Enter BE ,表示 不 保存 并 强制 退出 。 

这 里 我 们 从 键盘 输入 “:wq”3 个 英文 字符 ,然后 按 Enter 键 ,表示 保存 文件 并 退出 vim 
编辑 器 。 这 样 ,就 成 功 创建 了 word. txt 文件 ,这 时 使 用 1s 命令 查看 ,就 会 发 现 /home/ 
hadoop/ 目 录 下 多 了 一 个 word. txt 文件 。 如 果 要 查看 word. txt 文件 中 的 内 容 , 可 以 采用 两 
种 方式 : 第 一 种 方式 是 ,仍然 使 用 vim 编辑 器 打开 word. txt 文件 ,查看 其 内 容 ; 第 二 种 方式 
是 使 用 cat 命令 ,这 种 方式 要 比 前 一 种 简单 得 多 。 

这 里 需要 指出 的 是 ,在 Linux 系统 中 使 用 vim 编辑 器 创建 一 个 文件 时 ,并 不 是 以 扩展 名 
来 区 分 文件 的 ,不 管 是 否 有 扩展 名 ,都 是 生成 文本 文件 ,txt 扩展 名 只 是 我 们 自己 人 为 添加 ， 
方便 自己 查看 用 的 。 也 就 是 说 ,创建 word. txt 和 word 这 两 个 文件 ,对 于 Linux 系统 而 言 都 
是 默认 创建 了 文本 类 型 的 文件 ,和 是 否 有 txt 扩展 名 没有 关系 。 


2.3.12 在 Windows 系统 中 使 用 SSH 方式 登录 Linux 系统 


当 采 用 虚拟 机 安装 方式 时 ,Linux 虚拟 机 就 像 运 行 在 Windows 上 的 一 个 软件 。 这 时 ， 
在 使 用 Linux 系统 时 ,可 以 随时 把 VirtualBox 窗口 最 小 化 ,返回 到 Windows 桌面 ,继续 使 
用 Windows 系统 ,然后 需要 用 Linux 系统 时 ,再 切换 到 VirtualBox 窗口 即 可 。 

由 于 Windows 系统 运行 和 使 用 各 种 软件 的 体验 都 会 比较 流畅 ,例如 浏览 网 页 搜索 大 数 
据 资 料 等 ,相对 而 言 ,在 Linux 中 使 用 各 种 软件 ,体验 会 比 Windows 差 很 多 。 所 以 ,我们 通 
常 都 习惯 在 Windows 系统 中 使 用 浏览 器 去 搜索 阅读 相关 资料 ,如 代码 实例 等 。 想 象 一 下 我 
们 可 能 会 遇 到 下 面 这 种 场景 ,在 Linux 系统 中 使 用 vim 编辑 器 打开 了 一 个 testInLinux. txt 
文件 ,在 Windows 系统 中 通过 网 络 搜索 找到 了 一 段 实例 代码 ,这 时 ,我 们 很 想 把 Windows 
系统 中 的 网 页 里 面 的 代码 复制 并 粘贴 到 Linux 系统 中 的 正在 被 vim 编辑 器 打开 的 
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testInLinux. txt 文件 中 。 

在 Windows 系统 内 部 ,在 两 个 文本 文件 A 和 B 之 间 复 制 .粘贴 内 容 , 通 常 是 借助 于 “前 
贴 板 ” 的 功能 。 剪 贴 板 是 Windows 操作 系统 在 内 存 中 设置 的 一 块 区 域 ,用 于 数据 共享 。 在 
Windows 系统 中 ,选中 文件 A 中 的 内 容 , 右 击 , 在 弹出 菜单 中 单 击 * 复 制 ?选项 ,内 容 就 被 复 
制 到 剪贴 板 中 暂时 保存 ,然后 ,在 文件 B 中 , 单 击 * 粘 贴 ?选项 ,就 把 内 容 从 剪贴 板 粘 贴 到 文 
件 B 中 了 。 

所 以 ,一 个 很 自然 的 想法 是 ,在 Windows 系统 的 浏览 器 中 ,复制 这 段 实例 代码 到 剪贴 板 
中 ,然后 ,再 切换 到 Linux 虚拟 机 界面 ,把 代码 粘贴 到 正在 被 vim 编辑 器 打开 的 testinlinux. 
txt 文件 中 。 遗 憾 的 是 ,这 样 做 会 失败 ,系统 是 不 支持 直接 把 Windows 系统 中 的 内 容 直接 复 
制 、 粘 贴 到 Linux 系统 中 的 ,因为 ,Windows 系统 和 Linux 系统 是 完全 独立 的 两 个 系统 ,在 
默认 情况 下 , Windows 系统 中 的 剪贴 板 对 于 Linux 系统 而 言 ,是 不 可 见 的 。 所 以 ,在 
Windows 系统 中 把 代码 复制 到 剪贴 板 上 以 后 ,只 能 在 Windows 系统 中 执行 粘贴 操作 ,无 法 
在 Linux 中 执行 粘贴 操作 。 

那么 ,怎么 才能 把 Windows 中 的 代码 直接 粘贴 到 Linux 系统 的 文件 中 呢 ? VirtualBox 
等 虚拟 机 软件 提供 了 可 以 让 Windows 和 Linux 两 个 系统 共享 剪贴 板 的 功能 ,如 图 2-59 
所 示 。 


Ubuntu Kylin 桌面 


e 





图 2-59 在 VirtualBox 界面 中 设置 共享 剪贴 板 


在 图 2-59 中 ,只 要 把 共享 剪贴 板 设置 为 “双向 ”, 就 可 以 在 Windows 和 Linux 系统 之 间 互 
相 复 制 、 粘 贴 文本 内 容 。 但 是 ,需要 说 明 的 是 ,在 实际 应 用 过 程 中 ,对 于 一 些 计算 机 而 言 , 这 个 
功能 可 能 会 失效 ,所 以 ,下 面 介绍 另外 一 种 方法 实现 在 两 个 操作 系统 之 间 复 制 、 粘 贴 文本 。 

前 面 介绍 过 的 FTP 软件 ,只 能 进行 整个 文件 的 传输 , 即 把 整个 文件 从 Windows 系统 传 
输 到 Linux 系统 中 ,而 无 法 把 某 段 代码 直接 粘贴 到 Linux 系统 的 文件 中 。 因 此 ,我 们 需要 采 
用 在 Windows 系统 中 使 用 SSH 方式 登录 Linux 系统 ,实现 文本 内 容 ( 如 代码 ) 的 复制 、 粘 
贴 ; 当 然 ,SSH 方式 也 可 以 用 来 实现 远程 登录 ,例如 ,在 宿舍 用 SSH 方式 远程 登录 位 于 实验 
室 的 某 台 Linux 服务 器 。 

本 书 采 用 PuTTY 软件 实现 SSH 登录 到 Linux 系统 。PuTTY 是 一 个 免费 的 、 
Windows x86 平台 下 的 Telnet, SSH 和 rlogin 客户 端 ,也 是 目前 较为 流行 的 远程 登录 工具 
之 一 。 在 Windows 系统 中 访问 本 书 官网 下 载 该 软件 ,位 于 “下 载 专区 ”的 “软件 ”目录 下 , 文 
件 名 是 putty V0. 63. 0. 0. 43510830. exe。 下 载 后 ,保存 到 Windows 系统 下 ,然后 在 
Windows 系统 中 启动 PuTTY ,会 出 现 如 图 2-60 所 示 的 设置 界面 。 
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图 2-60 PuTTY 设置 界面 


在 设置 界面 中 ,在 Host Name(or IP address) 下 面 的 文本 框 中 填 和 人 Linux 虚拟 机 的 IP 
地 址 ,前面 在 介绍 FTP 软件 使 用 方法 时 已 经 介绍 过 TP 地 址 的 查询 方法 ,请 参考 前 面 的 方 
法 ,在 Linux 终端 中 使 用 ifconfig 命令 查询 得 到 Linux 虚拟 机 的 IP 地 址 。 在 Port 下 面 的 文 
本 框 中 填 人 端口 号 22。 在 Connection type 下 面 的 选择 按钮 中 ,选中 SSH 作为 登录 方式 。 
在 Close window on exit 下 面 选择 Only on clean exit。 最 后 可 以 单 击 Save 按钮 保存 当前 设 
Tb ,建议 给 当前 连接 起 一 个 名 称 ,以 便 下 次 重复 使 用 (下 次 再 用 时 ,只 要 选中 该 连接 名 称 , 然 
后 单 击 Load 按钮 ,就 可 以 把 之 前 保存 好 的 配置 信息 自动 加 载 进 来 ) 。 

此 外 ,默认 设置 情况 下 ,连接 成 功 后 ,字体 会 比较 小 ,容易 产生 视觉 疲劳 ,可 以 事先 对 字 
体 大 小 进行 设置 。 在 设置 界面 的 左 侧 , 单 击 Windows 下 面 的 Appearance 子 目录 ,进入 外 观 
的 设置 界面 ( 见 图 2-61)。 

在 该 界面 中 , 单 击 Font settings 右 侧 的 Change 按钮 ,在 弹出 的 界面 中 ,选择 合适 的 字 
体 大 小 ,例如 ,设置 为 18, 然 后 单 击 “ 确 定 ” 按 钮 ,最 后 单 击 Open 按钮 ,就 启动 SSH 登录 了 。 
这 时 可 能 会 弹出 一 个 英文 界面 ,只 要 单 击 OK 按钮 确定 就 可 以 继续 登录 ,登录 后 的 界面 如 
图 2-62 所 示 。 

需要 在 “login as:” 后 面 输入 登录 Linux 系统 的 用 户 名 ,这 里 使 用 用 户 名 hadoop, 然 后 ， 
输入 hadoop 用 户 的 密码 (密码 也 是 hadoop) ,验证 通过 后 ,就 进入 Linux 的 Shell 命令 提示 
符 状态 了 ,就 相当 于 之 前 在 Linux 系统 中 打开 的 终端 一 样 ,可 以 在 里 面 输入 各 种 Linux für 
令 。 如 果 要 退出 登录 ,可 以 输入 exit 命令 ,就 会 退出 并 关闭 PuTTY 窗口 。 

假设 目前 已 经 使 用 PuTTY 软件 从 Windows 系统 中 登录 到 了 Linux 系统 中 ,这 时 ,就 
可 以 完成 代码 的 复制 .粘贴 了 。 因 为 ,这 个 时 候 ,PuTTY 只 是 运行 在 Windows 系统 中 的 一 


3823€ Unux 系 统 的 安装 和 使 用 








ES PurTY Configuration e p 
Category: 
E Session Configure the appearance of PuTTY's window 
Logging Adjustthe use ofthe cursor 
Ej Terminal 
Keyboard Cursorappearance: | E 
Bell Q) Block Underline Vertical line 
Features E] Cursor blinks 
-j Window 
Appearance Fontsetings 
Behaviour Font used in the terminal window 
Translation FE 
Suir Font Courier New, 10-point Change | 
Colours Allow selection of variable-pitch fonts 
Š- Connection 
wes Font quality. 
PRR Antialiased Non-Antialiased 
Telnet ClearType © Defaut 
Rlogin 
F Ssn Adjustthe use ofthe mouse pointer 
Serial Hide mouse pointer when typing in window 
Adjust the window border 
Gap between text and window edge: 1 
Sunken-edge border (slightly thicker) 
[About Opn |] Cancel 














图 2-61 PuTTY 配置 外 观 界面 
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图 2-62 PuTTY 登录 界面 


个 软件 ,是 可 以 看 到 Windows 系统 中 的 剪贴 板 的 。 在 PuTTY 中 使 用 vim 编辑 器 ,新 建 
个 文本 文件 testInLinux. txt, 然 后 ,执行 两 个 小 实验 ， 
首先 ,测试 从 Windows 系统 中 复制 一 段 代 码 ,粘贴 到 Linux 系统 的 testInLinux. txt X 
件 中 。 可 以 在 Windows 系统 中 打开 浏览 器 ,在 网 络 上 找到 一 段 代码 ,通过 “复制 ”命令 ,把 代 
码 复制 到 Windows 的 剪贴 板 上 。 接 下 来 ,把 窗口 切换 到 PuTTY 窗口 ,在 打开 的 vim 编辑 
器 中 右 击 , 就 可 以 把 代码 粘贴 到 testInLinux. txt 文件 中 ,然后 保存 并 退出 vim 编辑 器 。 也 
就 是 说 ,在 PuTTY 窗口 中 操作 Linux a 就 表示 “粘贴 >, 会 把 刚才 复制 的 内 容 粘 
贴 进去 。 不 仅 可 以 粘贴 到 vim 编辑 器 中 去 ,也 可 以 粘贴 到 Shell 命令 提示 符 后 面 。 
其 次 ,测试 从 Linux 系统 中 复制 一 有 niue 粘贴 到 Windows 系统 中 的 文本 文件 中 。 例 
如 ,现在 需要 把 Linux 系统 中 的 testInLinux. txt 的 部 分 代码 复制 到 Windows 系统 中 的 

















testInWindows. txt 中 。 在 PuTTY 窗口 中 ,使 用 vim 编辑 器 打开 testInLinux. txt, 然 后 用 
鼠标 左 键 选中 需要 复制 的 代码 。 只 要 选中 即 可 ,选中 被 复制 的 代码 以 后 ,这 些 代码 自 











动 就 被 保存 到 了 Windows 的 剪贴 板 上 。 然 后 到 Windows 系统 中 打开 的 testInWindows. 
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txt 中 ,执行 粘贴 操作 (如 用 快捷 键 Ctrl+V) .就 可 以 把 代码 粘贴 到 testInWindows. txt P. 
同 理 , 如 果 需 要 把 PuTTY 窗口 中 一 些 命令 执行 后 在 屏幕 上 显示 的 信息 复制 ,粘贴 到 
Windows 中 ,也 可 以 这 么 操作 。 例 如 ,有 时 候 , 人 们 在 PuTTY 窗口 中 执行 某 条 命令 ,屏幕 上 
返回 了 错误 信息 ,人 们 需要 在 Windows 系统 的 浏览 器 中 去 网 络 搜索 错误 的 解决 方案 ,这 时 ， 
就 可 以 在 PuTTY 窗口 中 ,用 鼠标 左 键 选 中 错误 信息 ,然后 把 这 些 错误 信息 粘贴 到 Windows 
下 的 搜索 引擎 页 面 中 ,就 可 以 获得 很 好 的 网 页 浏览 体验 了 , 毕 竞 在 Linux 系统 中 使 用 浏览 器 
的 体验 不 是 很 好 。 


2.3.13 在 Linux 中 安装 Eclipse 


Eclipse 是 常用 的 程序 开发 工具 ,可 以 利用 Ubuntu 自 带 的 “软件 中 心 ”安装 Eclipse 等 
各 种 软件 。“Ubuntu 软件 中 心 ”快捷 图 标 如 图 2-63 所 示 。 





图 2-63 桌面 上 的 快速 启动 栏 


进入 *Ubuntu 软件 中 心 ” 以 后 ,在 界面 右上 角 的 搜索 框 中 输入 Eclipse, 会 自动 出 现 
Eclipse 软件 安装 快捷 按钮 ( 见 图 2-64). 
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图 2-64 Ubuntu 软件 中 心 


单 击 “安装 ?按钮 就 可 以 顺利 完成 Eclipse 的 安装 。 安 装 时 需要 管理 员 权限 ,Ubuntu 系 
统 会 弹出 “认证 ”窗口 进行 用 户 认证 ,请 输入 当前 用 户 的 登录 密码 。 同 时 需要 注意 的 是 ,安装 
过 程 需要 从 网 络 下 载 相关 文件 ,所 以 ,要 保持 计算 机 一 直 处 于 联网 状态 。 

Eclipse 安装 完成 以 后 ,可 以 单 击 桌 面 快捷 启动 图 标 栏 中 的 “资源 搜索 ”图 标 ( 见 图 2-63 
中 最 左 侧 的 图 标 )。 在 弹出 的 “资源 搜索 ”界面 中 ,可 以 在 界面 左上 角 的 搜索 框 中 输入 
Eclipse, 就 可 以 找到 刚才 已 经 安装 好 的 Eclipse 软件 ( 见 图 2-65) , 单 击 Eclipse 图 标 ,就 可 以 
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启动 运行 Eclipse 软件 。 





图 2-65 资源 搜索 界面 


2.3.14 其 他 使 用 技巧 
l 使 用 Tab 键 自动 补 全 命令 


在 Linux Shell 中 输入 命令 时 ,可 以 使 用 快捷 键 Tab 自动 补 全 命令 ,节省 输入 时 间 。 例 
如 ,要 使 用 vim 编辑 器 打开 文件 /home/hadoop/word20161221. txt, 正 常情 况 下 ,需要 输入 
vim /home/hadoop/word20161221. txt, 但 是 ,word20161221. txt 文件 名 不 好 记忆 ,手动 输 
入 也 容易 出 错 , 所 以 ,可 以 采用 Linux 自动 补 全 功能 简化 输入 工作 。 具 体 方法 是 ,输入 vim 
/home/hadoop/word 以 后 ,就 不 要 继续 输入 后 面 的 20161221. txt, 而 是 直接 按 一 下 键盘 上 
的 Tab fi Linux 系统 就 会 自动 补 上 20161221. txt, 


2 隐藏 文件 


在 Linux 下 ,以 英文 点 号 *. "开头 命名 的 文件 ,在 系统 中 被 视 为 隐藏 文件 。 因 此 ,如 果 想 
隐藏 某 个 文件 或 目录 ,一 种 简单 的 办 法 就 是 把 文件 名 命名 为 以 英文 点 号 开头 。 例 如 ,后 面 学 
习 过 程 中 经 常用 到 的 . bashrc 文件 ,就 是 一 个 隐藏 文件 ,用 来 保存 系统 的 各 种 环境 变量 。 


3. 重 现 历史 命令 


在 Linux 的 终端 中 ,人 们 会 输入 大 量 命令 ,系统 会 自动 保存 人 们 历史 上 输入 的 命令 ,可 
以 按键 盘 上 的 “上 箭头 ”和 * 下 箭头 ”按钮 , 翻 看 历史 命令 ,找到 某 条 历史 命令 后 ,可 以 直接 按 
Enter 键 执行 该 命令 ,这 样 ,就 不 需要 重复 输入 一 些 较 长 的 命令 了 ,大 幅 节 省 了 命令 输入 
时 间 。 


2.4 关于 本 书 内 容 的 一 些 约定 


为 了 准确 理解 本 书后 续 的 内 容 , 这 里 对 本 书 的 内 容 做 如 下 约定 。 

(1) 本 书 全 部 采用 hadoop 用 户 登 录 Linux 系统 。 

(2) 本 书 所 有 在 Linux 系统 中 下 载 的 文件 都 保存 到 “/home/hadoop/ 下 载 /目录 下 ,所 
有 从 Windows 系统 中 通过 FTP 软件 上 传 到 Linux 系统 中 的 文件 ,也 放 在 “/home/hadoop/ 
下 载 /” 目 录 下 ,总 之 ,这 个 目录 就 是 本 书 选择 的 Linux 系统 中 的 文件 中 转 站 。 

(3) 本 书 中 , 当 需 要 在 Linux 系统 的 “终端 "中 输入 命令 时 ,全 部 统一 采用 如 下 格式 , 即 
$ 符 号 开头 ,后 面 跟 上 Linux 命令 : 
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$cd /usr/local # 设 置 当前 目录 








在 上 面 命令 中 ,# 表 示 注 释 。 所 以 ,后 面 内 容 中 只 要 是 $ 开 始 的 命令 ,都 在 Linux 系统 
中 打开 一 个 终端 ,进入 Shell 命令 提示 符 状 态 后 执行 命令 。 

(4) 由 于 页 面 的 宽度 限制 , 当 一 行 命令 过 长 时 ,排版 时 会 被 放 到 下 一 行 ,例如 ,下 面 的 命 
令 虽 然 包 含 两 行 ,实际 上 是 一 行 完整 的 命令 。 





$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop- mapreduce- examples- * .jar grep ./input 
./output 'dfs[a- z.]* ' 











2.5 本 章 小 结 


本 书 几 乎 所 有 软件 (除了 可 视 化 工具 Tableau 以 外 ) 都 是 安装 和 运行 在 Linux 操作 系统 
之 上 ,因此 ,顺利 安装 好 Linux 系统 并 且 掌 握 Linux 系统 的 基本 使 用 方法 ,是 开展 后 续 章 节 
内 容 学 习 的 前 提 和 基础 。 

Linux 系统 可 以 采用 双 系 统 方式 安装 ,也 可 以 采用 虚拟 机 方式 安装 ,建议 在 大 数据 初学 
阶段 采用 虚拟 机 方式 安装 。 本 章 详细 介绍 了 如 何 安 装 Linux 虚拟 机 ,并 给 出 了 生成 Linux 
虚拟 机 镜像 文件 的 方法 ,可 以 实现 Linux 虚拟 机 的 快速 复制 安装 。 另 外 ,为 了 帮助 读者 更 好 
地 开展 Linux 系统 下 的 相关 操作 和 实践 ,本 章 简要 介绍 了 Linux 系统 及 其 相关 软件 的 基本 
使 用 方法 。 最 后 ,本 章 给 出 了 关于 本 书 的 一 些 约定 , 了 解 这 些 约定 ,有 助 于 准确 理解 后 续 章 
节 的 内 容 。 


Hadoop 的 安装 和 使 用 


Hadoop 是 一 个 开源 的 、 可 运行 于 大 规模 集群 上 的 分 布 式 计算 平台 , 它 主要 包含 分 布 式 
并 行 编程 模型 MapReduce 和 分 布 式 文件 系统 HDFS 等 功能 ,已 经 在 业内 得 到 广泛 的 应 用 。 
借助 于 Hadoop, 程 序 员 可 以 轻松 地 编写 分 布 式 并 行程 序 ,将 其 运行 于 计算 机 集群 上 ,完成 
海量 数据 的 存储 与 处 理 分 析 。 

本 章 首先 简要 介绍 Hadoop 的 发 展 情况 ;然后 , 曾 述 安装 Hadoop 之 前 的 一 些 必要 准备 
工作 ;最 后 ,介绍 安装 Hadoop 的 具体 方法 ,包括 单机 模式 、 伪 分 布 式 模式 、 分 布 式 模式 以 及 
使 用 Docker 搭建 Hadoop 集群 。 


3.1 Hadoop 简介 


Hadoop 是 Apache 软件 基金 会 旗下 的 一 个 开源 分 布 式 计算 平台 ,为 用 户 提供 了 系统 底 
层 细 节 透 明 的 分 布 式 基 础 架构 。Hadoop 是 基于 Java 语言 开发 的 ,具有 很 好 的 里 平台 特性 ， 
并 且 可 以 部 署 在 廉价 的 计算 机 集群 中 。Hadoop 的 核心 是 分 布 式 文件 系统 (Hadoop 
Distributed File System. HDFS) fll MapReduce。 

Hadoop 被 公认 为 行业 大 数据 标准 开源 软件 ,在 分 布 式 环境 下 提供 了 海量 数据 的 处 理 
能 力 。 几 乎 所 有 主流 厂商 都 围绕 Hadoop 提供 开发 工具 .开源 软件 .商业 化 工具 和 技术 服 
务 ,如 谷歌 .微软 .思科 淘宝 等 ,都 支持 Hadoop. 

Apache Hadoop 版 本 分 为 两 代 : 第 一 代 Hadoop 称 为 Hadoop 1.0; 第 二 代 Hadoop 称 
为 Hadoop 2.0。 第 一 代 Hadoop 包含 0. 20. x,0. 21. x 和 0. 22.x 三 大 版 本 ,其 中 ,0.20.x 最 
后 演化 成 1. 0. x, 变 成 了 稳定 版 ,而 0. 21. x 和 0. 22.x 则 增加 了 HDFS HA 等 重要 的 新 特 
性 。 第 二 代 Hadoop 包含 0.23. x 和 2.x 两 大 版 本 ,它们 完全 不 同 于 Hadoop 1. 0, 是 一 套 全 
新 的 架构 , 均 包 含 HDFS Federation 和 YARN(Yet Another Resource Negotiator) 两 个 组 
件 。 本 书 采用 Hadoop 2. 7. 1 版本。 

除了 免费 开源 的 Apache Hadoop 以 外 ,还 有 一 些 商业 公司 推出 的 Hadoop 发 行 版 。 
2008 年 ,Cloudera 成 为 第 一 个 Hadoop 商业 化 公司 ,并 在 2009 年 推出 第 一 个 Hadoop 发 行 
版 。 此 后 ,很 多 大 公司 也 加 入 了 做 Hadoop 产品 化 的 行列 ,如 MapR、Hortonworks、 星 环 等 。 
一 般 而 言 ,商业 化 公司 推出 的 Hadoop 发 行 版 ,也 是 以 Apache Hadoop 为 基础 ,但 是 ,前 者 
比 后 者 具有 更 好 的 易 用 性 、 更 多 的 功能 和 更 高 的 性 能 。 
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3.2 安装 Hadoop 前 的 准备 工作 

本 节 介绍 安装 Hadoop 之 前 的 一 些 准备 工作 ,包括 创建 hadoop 用 户 、 更 新 APT、 安 装 
SSH 和 安装 Java 环境 等 。 
3.2.1 创建 hadoop H À 


本 书 全 部 采用 hadoop 用 户 登 录 Linux 系统 ,并 为 hadoop 用 户 增加 了 管理 员 权 限 。 在 
第 2 章 中 已 经 介绍 了 hadoop 用 户 创建 和 增加 权限 的 方法 ,一 定 要 按照 该 方法 创建 hadoop 
用 户 ,并 且 使 用 hadoop 用 户 登录 Linux 系统 ,然后 再 开始 下 面 的 学 习 内 容 。 


3.2.2 更 新 APT 


第 2 章 介 绍 了 APT 软件 作用 和 更 新 方法 ,为 了 确保 Hadoop 安装 过 程 顺 利 进行 ,建议 
按照 第 2 章 介绍 的 方法 ,用 hadoop 用 户 登录 Linux 系统 后 打开 一 个 终端 ,执行 下 面 命令 更 
新 APT 软件 : 








$sudo apt- get update 








3.2.3 安装 SSH 


SSH 是 Secure Shell 的 缩写 ,是 建立 在 应 用 层 和 传输 层 基 础 上 的 安全 协议 。SSH 是 目 
前 较 可 靠 、 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 的 协议 。 利 用 SSH 协议 可 以 有 效 
防止 远程 管理 过 程 中 的 信息 泄露 问题 。SSH 最 初 是 UNIX 系统 上 的 一 个 程序 ,后 来 又 迅速 
扩展 到 其 他 操作 平台 。SSH 是 由 客户 端 和 服务 端的 软件 组 成 ,服务 端 是 一 个 守护 进程 , 它 
在 后 台 运 行 并 响应 来 自 客户 端的 连接 请 求 ,客户 端 包含 ssh 程序 以 及 像 scp( 远 程 复制 )、 
slogin( 远 程 登录 ) sftp( 安 全 文件 传输 ) 等 其 他 的 应 用 程序 。 

为 什么 在 安装 Hadoop 之 前 要 配置 SSH 呢 ? 这 是 因为 , Hadoop 名 称 节点 (NameNode) 
需要 启动 集群 中 所 有 机 器 的 Hadoop 守护 进程 ,这 个 过 程 需要 通过 SSH 登录 来 实现 。 
Hadoop 并 没有 提供 SSH 输入 密码 登录 的 形式 ,因此 ,为 了 能 够 顺利 登录 集群 中 的 每 台 机 
器 ,需要 将 所 有 机 器 配置 为 “名 称 节点 可 以 无 密码 登录 它们 ”。 

Ubuntu 默认 已 安装 了 SSH 客户 端 ,因此 ,这 里 还 需要 安装 SSH 服务 端 ,在 Linux 的 终 
端 中 执行 以 下 命令 : 





$sudo apt-get install openssh- server 





安装 后 ,可 以 使 用 如 下 命令 登录 本 机 : 





$ssh localhost 











执行 该 命令 后 会 出 现 如 图 3-1 所 示 的 提示 信息 (SSH 首次 登录 提示 ) ,输入 yes, 然 后 按 
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提示 输入 密码 hadoop ,就 登录 到 本 机 了 。 





图 3-1 SSH 登录 提示 信息 


这 里 在 理解 上 会 有 一 点 “ 绕 弯 ”。 也 就 是 说 ,原本 我 们 登录 进入 Linux 系统 以 后 ,就 是 在 
本 机 上 ,这 时 ,在 终端 中 输入 的 每 条 命令 都 是 直接 提交 给 本 机 去 执行 ,然后 ,又 在 本 机 上 使 用 
SSH 方式 登录 到 本 机 ,这 时 ,在 终端 中 输入 的 命令 ,是 通过 SSH 方式 提交 给 本 机 处 理 。 如 
果 换 成 包含 两 台独 立 计算 机 的 场景 ,SSH 登录 会 更 容易 理解 。 例 如 ,有 两 台 计 算 机 A A B 
都 安装 了 Linux 系统 ,计算 机 B 上 安装 了 SSH 服务 端 ,计算 机 A 上 安装 了 SSH 客户 端 , 计 
TEL B if) IP 地 址 是 59.77.16.33, 在 计算 机 A 上 执行 命令 ssh 59.77.16.33, 就 实现 了 通过 
SSH 方式 登录 计算 机 B. 上 面 的 Linux 系统 ,在 计算 机 A 的 Linux 终端 中 输入 的 命令 ,都 会 
提交 给 计算 机 B 上 的 Linux 系统 执行 ,也 就 是 说 ,在 计算 机 A 上 操作 计算 机 B 中 的 Linux 
系统 。 现 在 ,只 有 一 台 计 算 机 ,就 相当 于 计算 机 A A B 都 在 同一 台 机 器 上 ,所 以 ,理解 起 来 
就 会 有 点 “ 绕 弯 ”。 

由 于 这 样 登 录 需 要 每 次 输入 密码 ,所 以 ,需要 配置 成 SSH 无 密码 登录 会 比较 方便 。 在 
Hadoop 集群 中 ,名 称 节点 要 登录 某 台 机 器 (数据 节点 ) 时 ,也 不 可 能 人 工 输入 密码 ,所 以 ,也 
需要 设置 成 SSH 无 密码 登录 。 

首先 输入 命令 exit 退出 刚才 的 SSH, 就 回 到 了 原先 的 终端 窗口 ;然后 可 以 利用 ssh 
eygen 生成 密 钥 , 并 将 密 钥 加 入 到 授权 中 ,命令 如 下 : 





















$cd ~/.ssh/ # 若 没有 该 目录 ,请 先 执行 一 次 ssh localhost 
$ssh- keygen - t rsa # 会 有 提示 , 按 Enter 键 即 可 
$cat ./id rsa.pub >> ./authorized keys # 加 入 授权 











此 时 ,再 执行 ssh localhost 命令 ,无须 输入 密码 就 可 以 直接 登录 了 ,如 图 3-2 Bron o 


localhost 





图 3-2 SSH 登录 后 的 提示 信息 


3.2.4 安装 Java 环境 


Hadoop 是 基于 Java 语言 开发 的 ,本 书 的 Hadoop 应 用 程序 也 是 采用 Java 语言 编写 的 ， 
因此 ,需要 安装 Java 环境 。Java 环境 可 选择 安装 Oracle 的 JDK ,或 者 安装 OpenJDK., Fii 
介绍 两 种 不 同 的 安装 方式 ,优先 选择 第 一 种 方式 ,如 果 第 一 种 方式 失败 ,请 选择 第 二 种 方式 。 
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1 第 一 种 安装 方式 
直接 通过 如 下 命令 安装 OpenJDK 7; 





$sudo apt-get install openjdk- 7- jre openjdk- 7- jdk 











上 述 安 装 过 程 需 要 访问 网 络 下 载 相关 文件 ,请 保持 联网 状态 。 安 装 好 OpenJ DK 后 , 需 
要 找到 相应 的 安装 路 径 ,这 个 路 径 是 用 于 配置 JAVA_HOME 环境 变量 的 ,请 执行 如 下 
命令 : 





$dpkg - L openjdk- 7- jdk | grep '/bin/javac' 











该 命令 会 输出 一 个 路 径 , 除 去 路 径 末 尾 的 /binVjavac, 剩 下 的 就 是 正确 的 路 径 了 。 例 如 ， 
上 面 的 命令 执行 后 输出 路 径 为 /usr/lib/jvm/java-7-openjdk-amd64/bin/javac, 则 我 们 需要 
的 路 径 为 /usr/lib/jvm/java-7-openjdk-amd64。 

接 下 来 需要 配置 JAVA_HOME 环境 变量 ,为 方便 起 见 ,这 里 直接 在 一 /. bashrc 这 个 文 
件 中 进行 设置 ,采用 这 种 配置 方式 时 ,只 对 当前 登录 的 单个 用 户 生效 , 当 该 用 户 登 录 以 及 每 
次 打开 新 的 Shell 时 , 它 的 环境 变量 文件 . bashrc 会 被 读 取 。 在 Linux 终端 中 输入 下 面 命令 
打开 当前 登录 用 户 的 环境 变量 配置 文件 . bashrc: 





$vim ~/.bashrc 





在 文件 最 前 面 添加 如 下 单独 一 行 (注意 ,等 号 (= ) 前 后 不 能 有 空格 ) ,然后 保存 退出 : 





export JAVA HOME- /usr/lib/jvm/java- 7- openjdk- amd64 





接 下 来 要 让 环境 变量 立即 生效 ,执行 如 下 代码 





$source ~/.bashrc # 使 变量 设置 生效 











执行 上 述 命令 后 ,可 以 检验 一 下 是 否 设置 正确 : 





Secho $JAVA HOME # 检 验 变 量 值 
$java - version 


$$JAVA HOME/bin/java -version £54 ÉDBHÁTT java -version 一 样 











如 果 设 置 正确 ,$ JAVA_HOME/bin/java -version 命令 执行 后 ,会 输出 Java 的 版 本 信 
息 ,并 且 和 java -version 的 输出 结果 一 样 。 
至 此 ,Hadoop 所 需 的 Java 运行 环境 就 顺利 安装 完成 。 


2 第 二 种 安装 方式 
根据 大 量 计 算 机 安装 Java 环境 的 情况 发 现 ,部 分 计算 机 按照 上 述 的 第 一 种 安装 方式 会 
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出 现 安装 失败 的 情况 ,这 时 ,可 以 采用 这 里 介绍 的 另外 一 种 安装 方式 ,命令 如 下 : 





$sudo apt-get install default- jre default- jdk 











上 述 安装 过 程 需要 访问 网 络 下 载 相关 文 件 ,请 保持 联网 状态 。 安 装 结束 以 后 ,需要 配置 
JAVA_HOME 环境 变量 ,在 Linux 终端 中 输入 下 面 命令 打开 当前 登录 用 户 的 环境 变量 配 
置 文件 . bashre: 





$vim ~/.bashrc 





在 文件 最 前 面 添加 如 下 单独 一 行 (注意 ,等 号 (一 ) 前 后 不 能 有 空格 ) ,然后 保存 退出 : 





export JAVA HOME- /usr/lib/jvm/default- java 





接 下 来 要 让 环境 变量 立即 生效 ,执行 如 下 代码 : 





$source ~/.bashrc # 使 变量 设置 生效 





执行 上 述 命令 后 ,可 以 检验 一 下 是 否 设置 正确 : 








$echo $JAVA HOME # 检 验 变量 值 
$java - version 
$$JAVA HOME/bin/java -version # 与 直接 执行 java - version 一 样 








至 此 ,就 成 功 安装 了 Java 环境 。 下 面 就 可 以 进入 Hadoop 的 安装 。 
3.3 安装 Hadoop 


Hadoop 包括 3 种 安装 模式 。 

CD 单机 模式 。 只 在 一 台 机 器 上 运行 ,存储 采用 本 地 文件 系统 ,没有 采用 分 布 式 文件 系 
统 HDFS。 

(2) 伪 分 布 式 模式 。 存 储 采用 分 布 式 文件 系统 HDFS, 但 是 ,HDFS 的 名 称 节点 和 数据 
节点 都 在 同一 台 机 器 上 。 

G) 分 布 式 模式 。 存 储 采 用 分 布 式 文件 系统 HDFS, 而 且 ,HDFS 的 名 称 节点 和 数据 节 
点 位 于 不 同 机 器 上 。 

本 节 介 绍 Hadoop 的 具体 安装 方法 ,包括 下 载 安装 文件 .单机 模式 配置 、 伪 分 布 式 模式 
配置 、 分 布 式 模式 配置 和 使 用 Docker 搭建 Hadoop 分 布 式 集群 等 。 


3.3.1 下 载 安 装 文件 


本 书 采用 的 Hadoop 版 本 是 2. 7. 1, 可 以 到 Hadoop 官网 下 载 安装 文件 Chttp:// 
mirrors. cnnic. cn/apache/hadoop/common/) ,或 者 也 可 以 到 本 书 官网 的 “下 载 专区 ”中 下 载 
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安装 文件 ,进入 下 载 专区 后 ,在 “软件 ”这 个 文件 夹 中 ,找到 文件 hadoop-2. 7. 1. tar. gz, 下 载 
到 本 地 。 下 载 的 方法 是 ,在 Linux 系统 中 (不 是 在 Windows 系统 中 ) ,打开 浏览 器 ,一 般 自 带 
了 火狐 (FireFox) 浏 览 器 。 打 开 浏览 器 后 ,访问 本 书 官网 ,下 载 hadoop-2. 7. 1. tar. gz。 火 狐 
浏览 器 默认 会 把 下 载 文件 都 保存 到 当前 用 户 的 下 载 目录 ,由 于 本 书 全 部 采用 hadoop 用 户 登 
录 Linux 系统 ,所 以 , hadoop-2. 7. 1. tar. gz 文件 会 被 保存 到 “/home/hadoop/ 下 载 /” 目 
录 下 。 

需要 注意 的 是 ,如 果 是 在 Windows 系统 下 面 下 载 安装 文件 hadoop-2. 7. 1. tar. gz, 则 需 
要 通过 FTP 软件 上 传 到 Linux 系统 的 “/home/hadoop/ 下 载 /” 目 录 下 ,这 个 目录 是 本 书 所 
有 安装 文件 的 中 转 站 。 

下 载 完 安装 文件 以 后 ,需要 对 文件 进行 解压 。 按 照 Linux 系统 使 用 的 默认 规范 ,用 户 安 
装 的 软件 一 般 都 是 存放 在 /usr/local/ 目 录 下 。 使 用 hadoop 用 户 登 录 Linux 系统 ,打开 一 个 
终端 ,执行 如 下 命令 : 





$sudo tar -zxf ~/ F $È /hadoop- 2.7.1.tar.gz -C /usr/local # 解 压 到 /usr/local 目录 中 
$cd /usr/local/ 

$sudo mv ./hadoop- 2.7.1/ ./hadoop # 将 文件 夹 名 改 为 hadoop 

$sudo chown -R hadoop ./hadoop # 修 改 文 件 权限 











Hadoop 解压 后 即 可 使 用 ,可 以 输入 如 下 命令 来 检查 Hadoop 是 否 可 用 ,成 功 则 会 显示 
Hadoop 版 本 信息 : 





$cd /usr/local/hadoop 
$./bin/hadoop version 











3.3.2. 单机 模式 配置 


Hadoop 的 默认 模式 为 非 分 布 式 模式 (本 地 模式 ), 无 须 进 行 其 他 配置 即 可 运行 。 
Hadoop 附带 了 丰富 的 例子 ,运行 如 下 命令 可 以 查看 所 有 例子 : 





$cd /usr/local/hadoop 
$./bin/hadoop jar ./share/hadoop/mapreduce/hadoop- mapreduce- examples- 2.7.1.jar 











上 述 命令 执行 后 ,会 显示 所 有 例子 的 简介 信息 ,包括 grep.join,wordcount 等 。 这 里 选 
择 运 行 grep 例子 ,可 以 先 在 /usr/local/hadoop 目录 下 创建 一 个 文件 夹 input, 并 复制 一 些 文 
件 到 该 文件 夹 下 ;然后 ,运行 grep 程序 ,将 input 文件 夹 中 的 所 有 文件 作为 grep 的 输入 ,让 
grep 程序 从 所 有 文件 中 筛选 出 符合 正则 表达 式 “dfs[a-z. ] 十 ”的 单词 ,并 统计 单词 出 现 的 次 
数 , 最 后 ,把 统计 结果 输出 到 /usr/local/hadoop/output 文件 夹 中 。 完 成 上 述 操作 的 具体 命 
令 如 下 : 





$cd /usr/local/hadoop 
Smkdir input 
$cp ./etc/hadoop/* .xml ./input ”将 配置 文件 复制 到 input 目录 下 
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$./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce- examples- * . 
jar grep ./input ./output 'dfs[a-z.]* ' 
$cat ./output/ * # 查 看 运行 结果 











执行 成 功 后 结果 如 图 3-3 所 示 ,输出 了 作业 的 相关 信息 ,输出 的 结果 是 符合 正则 表达 式 
的 单词 dfsadmin 出 现 了 1 次 。 


hadoop@DBLab-XMU: /usr/local/hadoop 





图 3-3 grep 程序 运行 结果 





的 是 ,Hadoop 默认 不 会 覆盖 结果 文件 ,因此 ,再 次 运行 上 面 实 例会 提示 出 错 。 
如 果 要 再 次 运行 ,需要 先 使 用 如 下 命令 把 output 文件 夹 删 除 : 





$m -r ./output 





3.3.3 伪 分 布 式 模式 配置 

Hadoop 可 以 在 单个 节点 (一 台 机 器 ) 上 以 伪 分 布 式 的 方式 运行 ,同一 个 节点 既 作 为 名 
称 节点 (Name Node) ,也 作为 数据 节点 (Data Node) , 读 取 的 是 分 布 式 文件 系统 HDFS 中 的 
文件 。 

1 修改 配置 文件 

需要 配置 相关 文件 ,才能 够 让 Hadoop 在 伪 分 布 式 模式 下 顺利 运行 。Hadoop 的 配置 文 
件 位 于 /usr/local/hadoop/etc/hadoop/ 中 ,进行 伪 分 布 式 模式 配置 时 ,需要 修改 2 个 配置 文 


件 , 即 core-site. xml 和 hdfs-site. xml, 


可 以 使 用 vim 编辑 器 打开 core-site. xml 文件 , 它 的 初始 内 容 如 下 : 














<configuration> 


</configuration> 











修改 以 后 ,core-site. xml 文件 的 内 容 如 下 : 





«configuration» 
«property» 
« name» hadoop.tmp.dir« /name> 
«value» file:/usr/local/hadoop/tmp« /value» 
«description»Abase for other temporary directories.« /description» 
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< /property» 
«property» 

«name» £s .defaultFS« /name» 

« value» hdfs://1localhost:9000« /value» 
< /property» 


< /configuration» 











在 上 面 的 配置 文件 中 ,hadoop. tmp. dir 用 于 保存 临时 文件 ,车 没有 配置 hadoop. tmp 
. dir 这 个 参数 , 则 默认 使 用 的 临时 目录 为 /tmp/hadoo-hadoop ,而 这 个 目录 在 Hadoop 重启 
时 有 可 能 被 系统 清理 掉 , 导 致 一 些 意 想不到 的 问题 ,因此 ,必须 配置 这 个 参数 。fs. defaultFS 
这 个 参数 ,用 于 指定 HDFS 的 访问 地 址 ,其 中 ,9000 是 端口 号 。 

同样 ,需要 修改 配置 文件 hdfs-site. xml, 修 改 后 的 内 容 如 下 : 





< configuration» 

«property» 

«name» dfs.replication« /name> 

«value» 1< /value» 
« /property» 
«property» 

<name> d£s .namenode name .di r« /name» 

« value» file: /usr/local/hadoop/tmp/dfs/name« /value> 
« /property» 
«property» 

« name» d£s .datanode.data.dir« /name» 

« value» file:/usr/local/hadoop/tmp/dfs/data« /value» 
< /property» 


< /configuration» 











在 hdfs-site. xml 文件 中 ,dfs. replication 这 个 参数 用 于 指定 副本 的 数量 ,因为 ,在 分 布 
式 文件 系统 HDFS 中 ,数据 会 被 完 余 存储 多 份 ,以 保证 可 靠 性 和 可 用 性 。 但 是 ,由 于 这 里 采 
用 伪 分 布 式 模式 ,只 有 一 个 节点 ,所 以 ,只 可 能 有 1 个 副本 ,所 以 ,设置 dfs. replication 的 值 
JJ 1. dfs. namenode. name. dir 用 于 设 定名 称 节点 的 元 数据 的 保存 目录 , dfs. datanode. 
data. dir 用 于 设 定数 据 节 点 的 数据 保存 目录 ,这 两 个 参数 必须 设 定 ,否则 后 面 会 出 错 。 

配置 文件 core-site. xml 和 hdfs-site. xml 的 内 容 , 也 可 以 直接 到 本 书 官网 的 “下 载 专 区 ” 
下 载 , 位 于 “代码 ”目录 下 的 “第 3 章 ” 子 目录 下 的 “ 伪 分 布 式 模式 配置 " 子 目 录 中 。 

需要 指出 的 是 ,Hadoop 的 运行 方式 (如 运行 在 单机 模式 下 还 是 运行 在 伪 分 布 式 模式 
下 ) 是 由 配置 文件 决定 的 ,启动 Hadoop 时 会 读 取 配置 文件 ,然后 根据 配置 文件 来 决定 运行 
在 什么 模式 下 。 因 此 ,如 果 需 要 从 伪 分 布 式 模式 切换 回 单机 模式 ,只 需要 删除 core-site. 
xml 中 的 配置 项 即 可 。 


2 执行 名 称 节点 格式 化 
修改 配置 文件 以 后 ,要 执行 名 称 节点 的 格式 化 ,命令 如 下 : 


$8 3:& Hadoop 的 安装 和 使 用 





$cd /usr/local/hadoop 
$./bin/hdfs namenode - format 











如 果 格 式 化 成 功 ,会 看 到 has been successfully formatted 和 Exiting with status 0 的 提 
示 信 息 ( 见 图 3-4) , 若 为 Exiting with status 1, 则 表示 出 现 错误 。 


hadoop@DBLab-XMU: /usr/local/hadoop 


Allocated new B 


o retain 1 ima 





图 3-4 执行 名 称 节点 格式 化 后 的 提示 信息 





如 果 在 执行 这 一 步 时 提示 错误 信 Error: JAVA_HOME is not set and could not be 
found”, 则 说 明之 前 设置 JAVA_HOME 环境 变量 时 ,没有 设置 成 功 ,要 按 前 面 的 内 容 介 绍 
先 设置 好 JAVA HOME 变量 ,否则 ,后 面 的 过 程 都 无 法 顺利 进行 。 





3. 启动 Hadoop 


执行 下 面 命 令 启动 Hadoop: 





$cd /usr/local/hadoop 
$./sbin/start-dfs.sh #start-dfs.sh 是 一 个 完整 的 可 执行 文件 ,中 间 没 有 空格 











如 果 出 现 如 图 3-5 所 示 的 SSH 提示 ,输入 yes 即 可 : 


hadoop@DBLab -XM 





图 3-5 启动 Hadoop 后 的 提示 信息 


启动 时 可 能 会 出 现 








WARN util.NativeCodeLoader: Unable to load native- hadoop library for your platform using 





builtin- java classes where applicable WARN 








这 个 警告 提示 信息 可 以 忽略 ,并 不 会 影响 Hadoop 正常 使 用 。 

如 果 启 动 Hadoop 时 遇 到 输出 非常 多 
况 ,如 图 3-6 所 示 。 

这 并 不 是 SSH 的 问题 ,可 以 通过 设置 Hadoop 环境 变量 来 解决 。 首 先 , 按 Ctrl 十 C 键 





ssh: Could not resolve hostname xxx” 的 异常 情 
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图 3-6 Hadoop 启动 后 的 错误 提示 信息 


中 断 启动 过 程 ;然后 ,使 用 vim 编辑 器 打开 文件 一 /. bashrc, 在 文件 最 上 边 的 开始 位 置 增加 
如 下 两 行内 容 ( 设 置 过 程 与 JAVA_HOME 变量 一 样 , 其 中 ,HADOOP_HOME 为 Hadoop 
的 安装 目录 ) : 








export HADOOP HOME- /usr/local/hadoop 
export HADOOP COMMON LIB NATIVE DIR- $HADOOP HOME/lib/native 











保存 该 文件 以 后 ,务必 要 执行 命令 source 一 /. bashrc 使 变量 设置 生效 ;然后 ,再 次 执行 
命令 . / sbin/start-dfs. sh 启动 Hadoop. 
Hadoop 启动 完成 后 ,可 以 通过 命令 jps 来 判断 是 否 成 功 启 动 ,命令 如 下 : 











$jps 





若 成 功 启动 , 则 会 列 出 如 下 进程 : NameNode, DataNode 和 SecondaryNameNode, lll 
果 看 不 到 SecondaryNameNode 进程 ,运行 命令 . / sbin/stop-dfs. sh 关闭 Hadoop 相关 进程 
然后 再 次 尝试 启动 。 如 果 看 不 到 NameNode 或 DataNode 进程 , 则 表示 配置 不 成 功 ,仔细 检 
之 前 的 步骤 ,或 通过 查看 启动 日 志 排 查 原因 。 
通过 start-dfs. sh 命令 启动 Hadoop 以 后 .就 可 以 运行 MapReduce 程序 处 理 数据 ,此 时 
是 对 HDFS 进行 数据 读 写 ,而 不 是 对 本 地 文件 进行 读 写 。 


4 Hadoop 无 法 正常 启动 的 解决 方法 
一 般 可 以 通过 查看 启动 日 志 来 排查 原因 。 启 动 时 屏幕 上 会 显示 类 似 如 下 信息 : 





DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop- 








hadoop- namenode- DBLab- XMU.out 





其 中 ,DBLab-XMU 对 应 的 是 机 器 名 (你 的 机 器 名 可 能 不 是 这 个 名 称 ) ,不 过 ,实际 上 启 
动 日 志 信息 记录 在 下 面 这 个 文件 中 : 





/usr/local/hadoop/logs/hadoop- hadoop- namenode- DBLab- XMU. log 











Fr VA EVER ICA RH. log 的 文件 ,而 不 是 . out 文件 。 此 外 ,每 一 次 的 启动 日 志 都 
是 追加 在 日 志文 件 之 后 ,所 以 ,需要 拉 到 日 志文 件 的 最 后 面 查看 ， ww 
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就 可 以 找到 某 次 启动 的 日 志 信 息 。 
当 找 到 属于 本 次 启动 的 一 段 日 志 信 息 以 后 ,出 错 的 提示 信息 一 般 会 出 现在 最 后 面 ,通常 


是 写 着 Fatal, Error, Warning 或 者 Java Exception 的 地 方 。 可 以 在 网 上 搜索 一 下 出 错 信息 
寻找 一 些 相关 的 解决 方法 。 


2 s 找 不 到 DataNode 进程 , 则 表示 数据 节点 启动 失败 ,可 尝试 如 下 的 








方法 ( 注 会 删除 HDFS 中 原 有 的 所 有 数据 ,如 果 原 有 的 数据 很 重要 ,请 不 要 这 样 做 ， 
seina 文 个 时 候 不 会 有 重要 数据 ) : 
$./sbin/stop-dfs.sh # 关 闭 
$m - 工 ./tmp # 删 除 tmp 文件 ,注意 : 这 会 删除 HDFs 中 原 有 的 所 有 数据 
$./bin/hdfs namenode -format ”重新 格式 化 名 称 节点 
$./sbin/start- dfs.sh # 重 启 











5. 使 用 Web 界面 查看 HDFS 信息 


Hadoop 成 功 启动 后 ,可 以 在 Linux 系统 中 (不 是 Windows 系统 ) 打 开 一 个 浏览 器 ,在 地 
址 栏 输入 地 址 http://localhost:50070( 见 图 3-7) 就 可 以 查看 名 称 节点 和 数据 节点 信息 ,还 
可 以 在 线 查看 HDFS 中 的 文件 。 


Namenode information x MEZ 





Æ) © localhost:50070/dfsheslth.htmlittab. 


Hadoop | Ovewiev 





Overview 'ocalhost:9000' (active) 





Started: Thu Dec 22 21:58:56 CST 2016 

Version: 2.7.1, r15ecc8Tccf4a0228f35af08fc56de536e6ce657a 
Compiled: 2015-06-29706:04Z by jenkins from (detached from 15ecc87) 
Cluster ID: CID-432dfoea-a4c3.47a8-aed5-e169c463c48e 

Block Pool ID: BP-1618423095-127.0.1.1-1469323132157 








图 3-7 HDFS 的 Web 管理 界面 


6 运行 Hadoop 伪 分 布 式 实例 


在 上 面 的 单机 模式 中 ,grep 例子 读 取 的 是 本 地 数据 ,在 伪 分 布 式 模式 下 , 读 取 的 则 是 分 
布 式 文件 系统 HDFS 上 的 数据 。 要 使 用 HDFS, 首 先 需要 在 HDFS 中 创建 用 户 目录 (本 书 
全 部 统一 采用 hadoop 用 户 名 登录 Linux 系统 ) ,命令 如 下 : 








$cd /usr/local/hadoop 
$./bin/hdfs dfs -mkdir -p /user/hadoop 
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上 面 的 命令 是 分 布 式 文件 系统 HDFS 的 操作 命令 ,会 在 后 面 的 第 4 章 中 做 详细 介 
目前 只 需要 按照 命令 操作 即 可 。 


7 
a. 


接着 需要 把 本 地 文件 系统 的 /usr/local/hadoop/etc/hadoop 目录 中 的 所 有 xml 文件 作 


为 输入 文件 ,复制 到 分 布 式 文件 系统 HDFS 中 的 /user/hadoop/input 目录 中 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -mkdir input E HDFS 中 创建 hadoop 用 户 对 应 的 input 目录 
$./bin/hdfs dfs -put ./etc/hadoop/* .xml input # 把 本 地 文件 复制 到 HDFs 中 





复制 完成 后 ,可 以 通过 如 下 命令 查看 HDFS 中 的 文件 列表 : 





$./bin/hdfs dfs - 1s input 








执行 上 述 命令 以 后 ,可 以 看 到 input 目录 下 的 文件 信息 。 
现在 就 可 以 运行 Hadoop 自 带 的 grep 程序 ,命令 如 下 : 





$./bin/hadoop jar ./share/hadoop/mapreduce/hadoop- mapreduce- examples- * . 
jar grep input output 'dfs[a-z.]* " 





运行 结束 后 ,可 以 通过 如 下 命令 查看 HDFS 中 的 output 文件 夹 中 的 内 容 : 





$./bin/hdfs dfs - cat output/* 








执行 结果 如 图 3-8 所 示 。 


sr/local/hadoop$ bin/hdfs dfs -ca 





图 3-8 在 Hadoop 伪 分 布 式 模式 下 运行 grep 的 结果 


需要 强调 的 是 ,Hadoop 运行 程序 时 ,输出 目录 不 能 存在 ,否则 会 提示 如 下 错误 信息 : 





9000/user/hadoop/output already exists 


org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost: 





因此 , 若 要 再 次 执行 grep 程序 ,需要 执行 如 下 命令 删除 HDFS 中 的 output 文件 夹 : 











$./bin/hdfs dfs -m -r output # 删 除 output 文件 夹 





7. 关闭 Hadoop 
如 果 要 关闭 Hadoop, 可 以 执行 下 面 命 令 : 
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$cd /usr/local/hadoop 
$./sbin/stop-dfs.sh 








下 次 启动 Hadoop 时 ,无 须 进 行 名 称 节 点 的 初始 化 (否则 会 出 错 ) ,也 就 是 说 ,不 要 再 次 
执行 hdfs namenode -format 命令 ,每 次 启动 Hadoop 只 需要 直接 运行 start-dfs. sh 命令 
即 可 。 





8. 启动 YARN 


需要 说 明 的 是 ,本 部 分 关于 Y ARN 的 内 容 可 以 仅 作 为 了 解 ,不 需要 实际 操作 ,本 书 在 后 
面 章节 的 所 有 操作 环节 都 不 会 启动 YARN。 如 果 读 者 按照 下 面 介绍 的 YARN 配置 方法 进 
行 了 实际 操作 ,那么 ,在 操作 结束 后 ,请 删除 相关 的 YARN 配置 文件 ,恢复 原来 配置 ,确保 后 
面 其 他 步骤 不 会 出 现 问题 。 
假设 刚才 已 经 关闭 了 Hadoop, 现 在 按照 上 面 介绍 的 方法 ,使 用 如 下 命令 再 次 启动 
Hadoop: 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 





启动 成 功 后 ,使 用 jps 命令 ,查看 进程 ,会 发 现 , 只 有 以 下 几 个 进程 : 





SecondaryNameNode 
Jps 

DataNode 

NameNode 








可 以 看 出 ,在 上 面 运行 Hadoop 过 程 中 并 没有 启动 YARN, YARN 是 Hadoop 2. 0 以 
后 新 增 的 专门 负责 资源 管理 与 任务 调度 的 组 件 ,MapReduce 作业 可 以 运行 在 YARN 之 上 ， 
由 YARN 负责 为 MapReduce 作业 进行 资源 管理 和 任务 调度 。 但 是 ,YARN 对 于 分 布 式 模 
式 (真正 由 多 台 机 器 构成 的 集群 环境 ) 才 有 意义 , 伪 分 布 式 模式 下 ,YARN 无 法 真正 发 挥 作 
用 ,因此 , 伪 分 布 式 模式 下 不 需要 借助 于 YARN 为 MapReduce 作业 进行 资源 管理 和 任务 调 
度 , 而 是 可 以 直接 借助 于 Hadoop 自身 内 置 的 mapred. LocalJobRunner 来 为 MapReduce 作 
业 进 行 资源 管理 和 任务 调度 ,也 就 是 说 ,不 启动 YARN. MapReduce 程序 也 能 够 正常 运行 。 
不 过 ,这 里 仍然 要 介绍 一 下 伪 分 布 模式 下 如 何 配置 和 启动 YARN. ib YARN 来 负责 资源 管 
理 与 任务 调度 。 

首先 修改 配置 文件 /usr/local/hadoop/etc/hadoop/mapred-site. xml, 这 个 文件 可 以 从 
mapred-site. xml. template 重 命名 后 得 到 ,命令 如 下 : 








$cd /usr/local/hadoop 
$mv ./etc/hadoop/mapred- site.xml.template ./etc/hadoop/mapred- site.xml 











然后 使 用 vim 编辑 器 打开 mapred-site. xml 文件 ,把 配置 修改 为 如 下 内 容 : 
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«configuration» 
«property» 
< name» mapreduce. framework.name« /name> 
«value» yarn« /value» 
« /property» 


< /configuration» 





接着 修改 配置 文件 /usr/local/hadoop/etc/hadoop/yarn-site. xml. 把 配置 修改 为 如 下 
内 容 : 





< configuration» 
«property» 
<name> yarn.nodemanager.aux- services« /name» 
«value»mapreduce shuffle« /value» 
< /property» 


< /configuration» 











现在 就 可 以 启动 Hadoop 和 YARN 了 ,命令 如 下 : 





$./sbin/start- dfs.sh # 启 动 Hadoop 
$./sbin/start- yarn.sh # 启 动 YARN 
$./sbin/mr- jobhistory- daemon.sh start historyserver 


# 开 启 历史 服务 器 ,才能 在 web 中 查看 任务 运行 情况 











开启 后 ,可 以 通过 jps 命令 查看 当前 运行 的 进程 ,可 以 看 到 多 了 NodeManager 和 


hadoop@DBLab-XMU: /usr/local/hadoop 
/local/hadoop$ ./sbin/start-yarn 


btarting reso ager, logging to /usr/local/hadoop/logs/yarn-hadoop-resource 
hanager-DBLab- 
localhost: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-hadoop-n 


bdemanager -DBLab-XMU. out 
/usr/Locat/hadoopS jps 
13519 NameNode 
Secondar yNameNode 
15284 |NodeManager 
15317 Jps 
13633 DataNode 
15163|ResourceManager 





图 3-9 启动 YARN 后 jps 命令 执行 结果 


启动 YARN 之 后 实例 的 方法 和 伪 分 布 式 模式 是 一 样 的 ,仅仅 是 资源 管理 、 任 务 
调度 方式 不 同 。 观 察 日 志 信 息 可 以 发 现 ,不 启用 YARN 时 ,是 mapred. LocalJobRunner 在 
跑 任 务 ; 启 用 YARN 之 后 ,是 mapred. YARNRunner 在 跑 任 务 。 启 动 YARN 还 有 个 好 处 ， 
那 就 是 可 以 通过 Web 界面 查看 任务 的 运行 情况 ,如 图 3-10 所 示 。 
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图 3-10 通过 Web 界面 查看 任务 的 运行 情况 





关闭 YARN 和 Hadoop 的 脚本 如 下 : 





$./sbin/stop- yarn.sh 


$./sbin/mr- jobhistory- daemon.sh stop historyserver 
$./sbin/stop-dfs.sh 











需要 注意 的 是 ,在 经 过 上 述 测试 以 后 ,如 果 以 后 在 伪 分 布 式 模式 下 启动 Hadoop 的 时 候 
不 想 同 时 启动 YARN, 则 务必 把 配置 文件 mapred-site. xml 重 命 名 , 改 成 mapred-site. xml. 
template, 需 要 用 时 改 回来 即 可 。 否 则 ,如 果 该 配置 文件 存在 ,使 用 start-dfs. sh 命令 启动 
Hadoop 以 后 却 未 开启 YARN, 则 运行 程序 时 会 提示 “Retrying connect to server: 0.0.0.0/ 
0.0.0.0:8032” 错 误 。 


9. 配置 PATH 变量 


前 面 在 启动 Hadoop 时 ,都 要 加 上 命令 的 路 径 , 例 如 ,. /sbin/start-dfs. sh 这 个 命令 中 就 
带 上 了 路 径 ,实际 上 ,通过 设置 PATH 变量 ,可 以 在 执行 命令 时 ,不 用 带 上 命令 本 身 所 在 的 
路 径 。 例 如 ,打开 一 个 Linux 终端 ,在 任何 一 个 目录 下 执行 ls 命令 时 ,都 没有 带 上 ls 命令 的 
路 径 , 实 际 上 ,执行 ls 命令 时 ,是 执行 /bin/ls 这 个 程序 ,之 所 以 不 需要 带 上 路 径 ,是 因为 
Linux 系统 已 经 把 1s 命令 的 路 径 加 入 到 PATH 变量 中 , 当 执 行 ls 命令 时 ,系统 是 根据 
PATH 这 个 环境 变量 中 包含 的 目录 位 置 ,逐一 进行 查找 ,直至 在 这 些 目录 位 置 下 找到 匹配 
的 1s 程序 ( 若 没有 匹配 的 程序 , 则 系统 会 提示 该 命令 不 存在 ) 。 

知道 了 这 个 原理 以 后 ,同样 可 以 把 start-dfs. sh stop-dfs. sh 等 命令 所 在 的 目录 /usr/ 
local/hadoop/sbin, 加 入 到 环境 变量 PATH 中 ,这 样 ,以 后 在 任何 目录 下 都 可 以 直接 使 用 命 
令 start-dfs. sh 启动 Hadoop, 不 用 带 上 命令 路 径 。 具 体操 作 方 法 是 ,首先 使 用 vim 编辑 器 
打开 一 /. bashrc 这 个 文件 ,然后 在 这 个 文件 的 最 前 面 位 置 加 入 如 下 单独 一 行 
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export PATH- SPRTH: /usr/local/hadoop/sbin 








在 后 面 的 学 习 过 程 中 ,如 果 要 继续 把 其 他 命令 的 路 径 也 加 入 到 PATH 变量 中 ,也 需要 
继续 修改 一 /. bashrc 这 个 文件 。 当 后 面 要 继续 加 入 新 的 路 径 时 ,只 要 用 英文 骨 号 “:” 隔 开 ， 
把 新 的 路 径 加 到 后 面 即 可 ,例如 ,如 果 要 继续 把 /usr/local/hadoop/bin 路 径 增 加 到 PATH 
中 ,只 要 继续 追加 到 后 面 ,如 下 所 示 : 





export PATH= $PATH: /usr/local/hadoop/sbin: /usr/local/hadoop/bin 











添加 后 ,执行 命令 source 一 /. bashrc 使 设置 生效 。 设 置 生效 后 ,在 任何 目录 下 启动 
Hadoop ,都 只 要 直接 输入 start-dfs. sh 命令 即 可 。 同 理 ,停止 Hadoop, 也 只 需要 在 任何 目录 
下 输入 stop-dfs. sh 命令 即 可 。 


3.3.4 分 布 式 模式 配置 


当 Hadoop 采用 分 布 式 模式 部 署 和 运行 时 ,存储 采用 分 布 式 文件 系统 HDFS ,而 且 ， 
HDFS 的 名 称 节点 和 数据 节点 位 于 不 同 机 器 上 。 这 时 ,数据 就 可 以 分 布 到 多 个 节点 上 ,不 同 
数据 节点 上 的 数据 计算 可 以 并 行 执行 ,这 时 的 MapReduce 分 布 式 计算 能 力 才能 真正 发 挥 
作用 。 

为 了 降低 分 布 式 模式 部 署 的 难度 ,本 书简 单 使 用 两 个 节点 (两 台 物 理 机 器 ) 来 搭建 集群 
环境 : 一 台 机 器 作为 Master 节点 ,局域网 IP 地 址 为 192. 168. 1. 121; 另 一 台 机 器 作为 Slave 
节点 ,局 域 网 IP 地 址 为 192. 168. 1. 122。 由 3 个 以 上 节点 构成 的 集群 ,也 可 以 采用 类 似 的 
方法 完成 安装 部 署 。 

Hadoop 集群 的 安装 配置 大 致 包括 以 下 步骤 。 

(D 选 定 一 台 机 器 作为 Master, 

(2) 在 Master 节点 上 创建 hadoop 用 户 ,安装 SSH 服务 端 \ 安 装 Java 环境 。 

(3) 在 Master 节点 上 安装 Hadoop ,并 完成 配置 。 

(4) 在 其 他 Slave 节点 上 创建 hadoop H, R$ SSH 服务 端 、 安 装 Java 环境 。 

(5) 将 Master 节点 上 的 /usr/local/hadoop 目录 复制 到 其 他 Slave 节点 上 。 

(6) 在 Master 节点 上 开启 Hadoop。 

上 述 这 些 步骤 中 ,关于 如 何 创建 hadoop 用 户 、 安 装 SSH 服务 端 \ 安 装 Java 环境 、 安 装 
Hadoop 等 过 程 ,已 经 在 前 面 介 绍 伪 分 布 式 安装 的 时 候 做 了 详细 介绍 ,按照 之 前 介绍 的 方法 
完成 步骤 (1) 到 步骤 (4) ,这 里 不 再 费 述 。 在 完成 步骤 (1) 到 步骤 (4) 的 操作 以 后 , 才 可 以 继续 
进行 下 面 的 操作 。 





1 网 络 配置 








假设 集群 所 用 的 两 个 节点 (机 器 ) 都 位 于 同一 个 局 域 网 内 。 如 果 两 个 节点 使 用 的 是 虚拟 
机 安装 的 Linux 系统 ,那么 两 者 都 需要 更 改 网 络 连 接 方式 为 “桥接 网 卡 "模式 (可 以 参考 第 2 
章 中 介绍 的 网 络 连接 设置 方法 ) ,才能 实现 多 个 节点 互 连 ,如 图 3-11 所 示 。 此 外 ,一 定 要 确 
保 各 个 节点 的 MAC 地 址 不 能 相同 ,否则 会 出 现 IP 冲突 。 在 第 2 章 曾 介绍 过 采用 导入 虚拟 
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机 镜像 文件 的 方式 安装 Linux 系统 ,如 果 是 采用 这 种 方式 安装 Linux 系统 , 则 有 可 能 出 现 两 
台 机 器 的 MAC 地 址 是 相同 的 ,因为 一 台 机 器 复制 了 另 一 台 机 器 的 配置 。 因 此 ,需要 改变 机 
器 的 MAC 地 址 ,如 图 3-11 所 示 , 可 以 单 击 界面 右边 的 “刷新 "按钮 随机 生成 MAC 地 址 ,这 
样 就 可 以 让 两 台 机 器 的 MAC 地 址 不 同 了 。 
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图 3-11 网 络 连 接 方式 设置 


网 络 配 置 完成 以 后 ,可 以 查看 一 下 机 器 的 IP 地 址 ,可 以 使 用 在 第 2 章 介 绍 过 的 ifconfig 
命令 查看 。 本 书 在 同一 个 局 域 网 内 部 的 两 台 机 器 的 IP 地 址 分 别 是 192. 168. 1. 121 和 192. 
168. 1. 122, 

由 于 集群 中 有 两 台 机 器 需要 设置 ,所 以 ,在 接 下 来 的 操作 中 ,一 定 要 注意 区 分 Master 15 
点 和 Slave 节点 。 为 了 便于 区 分 Master 节点 和 Slave 节点 ,可 以 修改 各 个 节点 的 主机 名 ,这 
样 ,在 Linux 系统 中 打开 一 个 终端 以 后 ,在 终端 窗口 的 标题 和 命令 行 中 都 可 以 看 到 主机 名 ， 
就 比较 容易 区 分 当前 是 对 哪 台 机 器 进行 操作 。 在 Ubuntu 中 ,在 Master 节点 上 执行 如 下 命 
令 修改 主机 名 : 





$sudo vim /etc/hostname 











执行 上 面 命令 后 ,就 打开 了 /etc/hostname 这 个 文件 ,这 个 文件 里 面 记录 了 主机 名 , 例 
如 ,本 书 在 第 2 章 中 安装 Ubuntu 系统 时 ,设置 的 主机 名 是 dblab-VirtualBox, 因 此 ,打开 这 
个 文件 以 后 ,里 面 就 只 有 dblab-VirtualBox 这 一 行内 容 , 可 以 直接 删除 ,并 修改 为 Master 
(注意 是 区 分 大 小 写 的 ) ;然后 保存 并 退出 vim 编辑 器 ,这 样 就 完成 了 主机 名 的 修改 ,需要 重 
启 Linux 系统 才能 看 到 主机 名 的 变化 。 

要 注意 观察 主机 名 修改 前 后 的 变化 。 在 修改 主机 名 之 前 ,如 果 用 hadoop 登录 Linux 系 
统 ,打开 终端 ,进入 Shell 命令 提示 符 状 态 , 会 显示 如 下 内 容 : 








hadoop@ dblab- VirtualBox:~$ 











修改 主机 名 并 且 重 启 系统 之 后 ,用 hadoop 登录 Linux 系统 ,打开 终端 ,进入 Shell 命令 
提示 符 状态 ,会 显示 如 下 内 容 : 





hadoop@ Master:~$ 
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可 以 看 出 ,这 时 就 很 容易 辨认 出 当前 是 处 于 Master 节点 上 进行 操作 ,不 会 和 Slave 
点 产生 混淆 。 
然后 执行 如 下 命令 打开 并 修改 Master 节点 中 的 /etc/hosts 文件 : 





dt 








$sudo vim /etc/hosts 





可 以 在 hosts 文件 中 增加 如 下 两 条 TP 和 主机 名 映射 关系 : 





192.168.1.121 Master 
192.168.1.122  Slavel 











修改 后 的 效果 如 图 3-12 所 示 。 


hadoop@Master: ~ 
localhost 
Master | 


# The following lines are desirable for IPv6 capable hosts 
:1 ip6-localhost ip6-loopback 


fe00::0 ip6-localnet 





图 3-12 修改 IP 和 主机 名 映射 关系 后 的 效果 


需要 注意 的 是 ,一 般 hosts 文件 中 只 能 有 一 个 127. 0. 0. 1 ,其 对 应 主机 名 为 localhost, 如 
RAER 127. 0. 0. 1 映射 ,应 删除 ,特别 是 不 能 存在 127. 0. 0. 1 Master 这 样 的 映射 记录 。 
修改 后 需要 重启 Linux 系统 。 

上 面 完成 了 Master 节点 的 配置 , 接 下 来 要 继续 完成 对 其 他 Slave 节点 的 配置 修改 。 本 
书 只 有 一 个 Slave 节点 ,主机 名 为 Slavel。 参 照 上 面 的 方法 ,把 Slave 节点 上 的 /etc/ 
hostname 文件 中 的 主机 名 修改 为 Slavel ,同时 ,修改 /etc/hosts 的 内 容 , 在 hosts 文件 中 增 
加 如 下 两 条 IP 和 主机 名 映射 关系 : 








192.168.1.121 Master 
192.168.1.122  Slavel 











修改 完成 以 后 ,重新 启动 Slave 节点 的 Linux 系统 。 
这 样 就 完成 了 Master 节点 和 Slave 节点 的 配置 ,然后 ,需要 在 各 个 节点 上 都 执行 如 下 
命令 ,测试 是 否 相 互 ping 得 通 , 如 果 ping 不 通 , 后 面 就 无 法 顺利 配置 成 功 : 








Sping Master-c 3 +R ping 3 次 就 会 停止 ,否则 要 按 ctrl+c 键 中 断 ping 命 令 
$ping Slavel-c 3 











例如 ,在 Master 节点 上 ping Slavel, 如 果 ping 通 的 话 ,会 显示 如 图 3-13 所 示 的 结果 。 
2. SSH 无 密码 登录 节点 


必须 要 让 Master 节点 可 以 SSH 无 密码 登录 到 各 个 Slave 节点 上 。 首 先 ,生成 Master 
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hadoop@Master - 





rr % time 
.3 E m 


图 3-13 使 用 ping 命令 的 效果 











节点 的 公 是 ,如 果 之 前 已 经 生成 过 公 是 ,必须 要 删除 原来 生成 的 公 匙 E 成 一 次 ,因为 前 


面 对 主 机 名 进行 了 修改 。 具 体 命令 如 下 : 














$cd ~/.ssh # 如 果 没 有 该 目录 , 先 执行 一 次 ssh localhost 
$m ./id rsa* # 删 除 之 前 生成 的 公 匙 (如 果 已 经 存在 ) 


$ssh- keygen -t rsa ”执行 该 命令 后 ,过 到 提示 信息 ,一直 按 Etner 键 就 可 以 





-执行 如 下 命令 ， 





为 了 让 Master 节点 能 够 无 密码 SSH 登录 本 机 ,需要 在 Master 节点 








$cat ./id rsa.pub >> ./authorized keys 











完成 后 可 以 执行 命令 ssh Master 来 验证 一 下 ,可 能 会 遇 到 提示 信息 ,只 要 输入 yes 即 
可 ,测试 成 功 后 ,执行 exit 命令 返回 原来 的 终端 。 
接 下 来 在 Master 节点 将 上 公 匙 传输 到 Slavel 节点 : 





scp ~/.ssh/id rsa.pub hadoop@ Slavel:/home/hadoop/ 











上 面 的 命令 中 ,scp 是 secure copy 的 简写 ,用 于 在 Linux 下 进行 远程 复制 文件 ,类 似 于 
cp 命令 ,不 过 ,cp 只 能 在 本 机 中 复制 。 执 行 scp 时 会 要 求 输入 Slavel 上 hadoop 用 户 的 密 
码 , 输 入 完成 后 会 提示 传输 完毕 ,如 图 3-14 所 示 。 





hadoop@Master: ~/.ssh 


a0:fb 


) to the list of known h 


0.4KB/S__ 00:00 





图 3-14 执行 scp 命令 的 效果 


接着 在 Slavel 节点 上 将 SSH 公 匙 加 入 授权 : 





Smkdir ~/.ssh # 如 果 不 存 在 该 文件 夹 需 先 创建 , 若 已 存在 , 则 忽略 本 命令 
$cat ~/id rsa.pub»» -/.ssh/authorized keys 
$rm ~/id rsa.pub # 用 完 以 后 就 可 以 删 掉 
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如 果 有 其 他 Slave 节点 ,也 要 执行 将 Master 公 匙 传输 到 Slave 节点 以 及 在 Slave 节点 
上 加 入 授权 这 两 步 操 作 。 
这 样 ,在 Master 节点 上 就 可 以 无 密码 SSH 登录 到 各 个 Slave 节点 了 ,可 在 Master 节点 


上 执行 如 下 命令 进行 检验 : 








$ssh Slavel 








执行 该 命令 的 效果 如 图 3-15 所 示 。 


NU/ Linux 3. 


tion: https p.ubuntu.con/ 





图 3-15 ssh 命令 执行 效果 


3. 配置 PATH 变量 

在 前 面 的 伪 分 布 式 安装 内 容 中 ,已 经 介绍 过 PATH 变量 的 配置 方法 。 可 以 按照 同样 的 
方法 进行 配置 ,这 样 就 可 以 在 任意 目录 中 直接 使 用 hadoop、hdfs 等 命令 了 。 如 果 还 没有 配 
"PATH 变量 ,那么 需要 在 Master 节点 上 进行 配置 。 首 先 执 行 命令 vim 一 /. bashrc, 也 就 
是 使 用 vim 编辑 器 打开 一 /. bashrc 文件 ;然后 ,在 该 文件 最 上 面 的 位 置 加 入 下 面 一 行内 容 : 











export PATH= $PATH: /usr/local/hadoop/bin:/usr/local/hadoop/sbin 








保存 后 执行 命令 source —/. bashrc, 使 配置 生效 。 
4 配置 集群 分 布 式 环境 


在 配置 集群 /分 布 式 模式 时 ,需要 修改 /usr/local/hadoop/etc/hadoop 目录 下 的 配置 文 
件 ,这 里 仅 设 置 正常 启动 所 必需 的 设置 项 ,包括 slaves, core-site. xml, hdfs-site. xml, 
mapred-site. xml、yarn-site. xml JE 5 个 文件 ,更 多 设置 项 可 查看 官方 说 明 。 


1) 修改 文件 slaves 

需要 把 所 有 数据 节点 的 主机 名 写 人 该 文件 ,每 行 一 个 ,默认 为 localhost( 即 把 本 机 作为 
数据 节点 ) ,所 以 ,在 伪 分 布 式 配置 时 ,就 采用 了 这 种 默认 的 配置 ,使 得 节点 既 作为 名 称 节 点 
也 作为 数据 节点 。 在 进行 分 布 式 配置 时 ,可 以 保留 localhost, 让 Master 节点 同时 充当 名 称 
节点 和 数据 节点 ,或 者 也 可 以 删 掉 localhost 这 行 ,让 Master 节点 仅 作 为 名 称 节点 使 用 。 

本 书 让 Master 节点 仅 作为 名 称 节 点 使 用 ,因此 将 slaves 文件 中 原来 的 localhost 删除 ， 
只 添加 如 下 一 行内 容 : 
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Slavel 





2) 修改 文件 core-site. xml 
把 core-site. xml 文件 修改 为 如 下 内 容 : 





< configuration» 
<property> 
«name» fs.defaultFS< /name> 
<value> hdfs://Master:9000< /value> 
< /property» 
<property> 
<name> hadoop.tmp.dir< /name> 
« value» file:/usr/local/hadoop/tmp< /value> 
«description» Abase for other temporary directories.« /description> 
< /property» 
< /configuration» 











各 个 配置 项 的 含义 可 以 参考 前 面 伪 分 布 式 模式 时 的 介绍 ,这 里 不 再 袭 述 。 


3) 修改 文件 hdfs-site. xml 

对 于 Hadoop 的 分 布 式 文件 系统 HDFS 而 言 ,一 般 都 是 采用 元 余 存 储 , 宛 余 因 子 通 常 为 
3, 也 就 是 说 ,一 份 数 据 保 存 3 份 副本 。 但 是 ,本 书 只 有 一 个 Slave 节点 作为 数据 节点 , 即 集 
群 中 只 有 一 个 数据 节点 ,数据 只 能 保存 一 份 , 所 以 ,dfs. replication 的 值 还 是 设置 为 1。hdfs- 
site, xml 的 具体 内 容 如 下 : 





<configuration> 
«property» 
<name> dfs .namenode . secondary .http- address« /name» 
<value>Master:50090< /value> 
< /property» 
«property» 
« name» dfs.replication« /name> 
«value» 1< /value» 
< /property» 
«property» 
< name» dfs.namenode.name.dir« /name> 
«value» file: /usr/local/hadoop/tmp/dfs/name« /value> 
< /property» 
«property» 
«name» dfs.datanode.data.dir« /name» 
«value» file:/usr/local/hadoop/tmp/dfs/data« /value> 


< /property» 





« /configuration» 
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4) 修改 文件 mapred-site. xml 


/ usr/local/hadoop/etc/hadoop 目录 下 有 一 个 mapred-site. xml. template, 需 要 修改 文 
件 名 称 ,把 它 重 命名 为 mapred-site. xml, 然 后 把 mapred-site. xml 文件 配置 成 如 下 内 容 : 





«configuration» 
«property» 


« /property» 
«property» 


< /property» 
«property» 


< /property» 
< /configuration» 





< name» mapreduce . framework.name« /name> 


« value» yarn< /value» 


« name» mapreduce. jobhistory.address« /name> 
«value» Master:10020« /value» 


< name» mapreduce. jobhistory.webapp.address« /name» 
« value» Master:19888« /value» 








5) 修改 文件 yarn-site. xml 


把 yarn-site. xml 文件 配置 成 如 下 内 容 : 





<configuration> 
<property> 


< /property> 
<property> 


< /property» 
</configuration> 





«name» yarn.resourcemanager.hostname« /name> 


« value» Master« /value» 


«name» yarn.nodemanager.aux- services« /name» 


«value»mapreduce shuffle« /value» 








上 述 5 个 文件 全 部 配置 完成 以 后 ,需要 把 Master 节点 上 的 /usr/local/hadoop 文件 夹 


复制 到 各 个 节点 上 。 如 果 之 前 已 经 


运行 


过 伪 分 布 式 模式 ,建议 在 切换 到 集群 模式 之 前 首先 


删除 之 前 在 伪 分 布 式 模式 下 生成 的 临时 文件 。 具 体 来 说 ,需要 首先 在 Master 节点 上 执行 如 


下 命令 ， 





$cd /usr/local 
$sudo rm -r ./hadoop/tmp 
$sudo rm -r ./hadoop/logs/* 


$cd ~ 





$tar - zcf -/hadoop.master.tar.gz ./hadoop ”# 先 压缩 再 复制 


$scp ./hadoop.master.tar.gz Slavel:/home/hadoop 


MER Hadoop 临时 文件 
# 删 除 日 志文 件 
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然后 在 Slavel 节点 上 执行 如 下 命令 : 





$sudo rm - /usr/local/hadoop # 删 掉 旧 的 (如 果 存 在 ) 
$sudo tar -zxf ~/hadoop.master.tar.gz-C /usr/local 


$sudo chown -R hadoop /usr/local/hadoop 











同样 ,如 果 有 其 他 Slave 节点 ,也 要 执行 将 hadoop. master. tar. gz 传输 到 Slave 节点 以 
及 在 Slave 节点 解压 文件 的 操作 。 

首次 启动 Hadoop 集群 时 ,需要 先 在 Master 节点 执行 名 称 节点 的 格式 化 (只 需要 执行 
这 一 次 ,后 面 再 启动 Hadoop 时 ,不 要 再 次 格式 化 名 称 节 点 ) ,命令 如 下 : 





$hdfs namenode - format 





现在 就 可 以 启动 Hadoop 了 ,启动 需要 在 Master 节点 上 进行 ,执行 如 下 命令 : 





$start- dfs.sh 
$start- yarn.sh 


$mr- jobhistory- daemon.sh start historyserver 











通过 命令 jps 可 以 查看 各 个 节点 所 启动 的 进程 。 如 果 已 经 正确 启动 , 则 在 Master 节点 
上 可 以 看 到 NameNode、 ResourceManager、SecondrryNameNode 和 JobHistoryServer 进 
程 ,如 图 3-16 所 示 。 

在 Slave 节点 可 以 看 到 DataNode 和 NodeManager 进程 ,如 图 3-17 所 示 。 


hadoop@Slave1: /usr/local 


la Jsr/ local$ jps 





图 3-16 Master 节点 上 启动 的 进程 图 3-17 Slave 节点 上 启动 的 进程 


缺少 任 一 进程 都 表示 出 错 。 另 外 还 需要 在 Master 节点 上 通过 命令 hdfs dfsadmin - 
report 查看 数据 节点 是 否 正常 启动 ,如 果 屏 幕 信 息 中 的 Live datanodes 不 为 0, 则 说 明 集 群 
启动 成 功 。 由 于 本 书 只 有 一 个 Slave 节点 充当 数据 节点 ,因此 ,数据 节点 启动 成 功 以 后 ,会 
显示 如 图 3-18 所 示 的 信息 。 

也 可 以 在 Linux 系统 的 浏览 器 中 输入 地 址 http: //master:50070/ ,通过 Web 页 面 看 到 
查看 名 称 节点 和 数据 节点 的 状态 。 如 果 不 成 功 , 可 以 通过 启动 日 志 排 查 原 因 。 

这 里 再 次 强调 , 伪 分 布 式 模式 和 分 布 式 模式 切换 时 需要 注意 以 下 事项 。 

(1) 从 分 布 式 切换 到 伪 分 布 式 时 ,不 要 忘记 修改 slaves 配置 文件 。 

(2) 在 两 者 之 间 切 换 时 , 若 遇 到 无 法 正常 启动 的 情况 ,可 以 删除 所 涉及 节点 的 临时 文件 
夹 , 这 样 虽然 之 前 的 数据 会 被 删 掉 ,但 能 保证 集群 正确 启动 。 所 以 ,如 果 集 群 以 前 能 启动 ,但 
后 来 启动 不 了 ,特别 是 数据 节点 无 法 启动 ,不 妨 试 着 删除 所 有 节点 (包括 Slave 节点 ) 上 的 
/ usr/local/hadoop/tmp 文件 夹 , 再 重新 执行 一 次 hdfs namenode -format, 再 次 启动 即 可 。 
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hadoop@Master: /usr/local/hadoop 


(6.76 GB) 
[E03] 

(1.77 GB) 
y: © (0 B) 


图 3-18 通过 dfsadmin 查看 数据 节点 的 状态 





5 执行 分 布 式 实例 
执行 分 布 式 





列 过 程 与 伪 分 布 式 模式 一 样 ,首先 创建 HDFS 上 的 用 户 目录 ,命令 如 下 : 





Shdfs dfs -mkdir -p /user/hadoop 





然后 在 HDFS 中 创建 一 个 input 目录 ,并 把 /usr/local/hadoop/etc/hadoop 目录 中 的 配 
置 文件 作为 输入 文件 复制 到 input 目录 中 ,命令 如 下 : 








$hdfs dfs -mkdir input 
$hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input 





接着 就 可 以 运行 MapReduce 作业 了 ,命令 如 下 : 





Shadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop- mapreduce- 
examples-*.jar grep input output 'dfs[a-z.]* " 











运行 时 的 输出 信息 与 伪 分 布 式 类 似 , 会 显示 MapReduce 作业 的 进度 ,如 图 3-19 所 示 。 


hadoop@Master /usr/local/hadoop 


3 INFO mapreduce.Job: Running j 
0 Job: Job job 


Job: map 


map 
map 
map 
map 
map x 
: Job job. 





图 3-19 运行 MapReduce 作业 时 的 输出 





执行 过 程 可 能 会 有 * 
不 妨 重启 Hadoop 再 次 测试 。 启 还 不 行 , 则 很 有 可 能 是 内 存 不 足 引 起 ,建议 增 大 虚拟 机 
的 内 存 , 或 者 通过 更 改 YARN 的 内 存 配 置 来 解决 。 

在 执行 过 程 中 ,可 以 在 Linux 系统 中 打开 浏览 器 ,在 地 址 栏 输入 http://master:8088/ 
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cluster, 通 过 Web 界面 查看 任务 进度 ,在 Web 界面 中 单 击 Tracking UI 这 一 列 的 History 
连接 ,可 以 看 到 任务 的 运行 信息 ,如 图 3-20 所 示 。 








[e T queue c [sarmmes | Fnshnmes | State $ | Hmelstatus 5 | Progress c | Tianem 下 
default Sun,20Dec Sun, 20 Dec FINISHED SUCCEEDED 
2015 2015 
05:59:42 06:00:12 GMT. 
GMT 







default — Sun,20Dec Sun,20Dec FINISHED SUCCEEDED /History. 
MapReduce Job job 1450590335222 0003 - Mozilla Firefox 











MapReduce Job job 14... x 


@ master ~c| 图 - Qa 











» Application Job Overview 
7 Job Job Name: grep-sort 

Overview UserName: hadoop 

Counters Queue: default 

Configuration. State: SUCCEEDED 

Map tasks Uberized: false 


Reduce tasks 
MEE Submitted: Sun Dec 20 13:59:42 CST 2015 


» Tools Started: Sun Dec 20 13:59:54 CST 2015 
Finished: Sun Dec 20 14:00:12 csr2015/. 1 X ^f 
Elapsed: 17sec ji 


图 3-20 通过 Web 页面 查 看 集群 和 MapReduce 作业 的 信息 





执行 完毕 后 的 输出 结果 如 图 3-21 所 示 。 


hadoop@Master: Jusr/tocal/hadoop 


bin/hdfs dfs -cat output/* 





图 3-21 MapReduce 作业 执行 完毕 后 的 信息 


最 后 关闭 Hadoop 集群 ,需要 在 Master 节点 执行 如 下 命令 : 








$stop- yarn.sh 
$stop- dfs.sh 


$mr- jobhistory- daemon.sh stop historyserver 








至 此 ,就 顺利 完成 了 Hadoop 集群 搭建 。 


3.3.5 使 用 Docker 搭建 Hadoop 分 布 式 集群 


搭建 Hadoop 分 布 式 集群 通常 容易 想到 的 两 种 方法 如 下 : 

a) 采用 多 台 机 器 构建 分 布 式 集群 ， 

(2) 在 一 台 机 器 上 ,安装 多 个 虚拟 机 ,每 个 虚拟 机 上 运行 一 个 Hadoop 1 

但 是 ,上 述 两 种 方式 都 有 缺点 。 如 果 采 用 第 一 种 方法 .通常 需要 有 多 台 机 器 ,对 于 很 多 
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大 数据 学 习 者 而 言 ,通常 难以 找到 多 台 机 器 用 于 构建 分 布 式 实验 环境 ;如 果 采 用 第 二 种 方 
法 ,通常 对 单 台 机 器 的 配置 要 求 很 高 ,如 果 机 器 配置 较 低 ,那么 在 一 台 机 器 上 同时 运行 多 个 
虚拟 机 ,速度 会 非常 慢 。 

随 着 虚拟 化 技术 的 发 展 ,尤其 是 Docker 容器 技术 的 诞生 ,使 得 人 们 可 以 有 了 第 3 种 构 
建 Hadoop 分 布 式 集群 的 方法 一 一 使 用 Docker 搭建 Hadoop 分 布 式 集群 。 


1. Docker 简介 


Docker 是 一 个 开源 的 应 用 容器 引擎 ,让 开发 者 可 以 把 应 用 及 其 依赖 包 一 起 打包 到 一 个 
可 移植 的 容器 中 ,然后 发 布 到 任何 Linux 机 器 上 。Docker 也 可 以 实现 虚拟 化 ,而 且 ,Docker 
是 不 同 于 VMware 等 传统 虚拟 化 技术 的 一 种 新 型 轻 量 级 虚拟 化 技术 (也 被 称 为 “容器 型 虚 
拟 化 技术 ”) 。 与 VMware 等 传统 虚拟 化 技术 相 比 ,Docker 容器 具有 启动 速度 快 、 资 源 利用 
率 高 ,性 能 开销 小 等 优点 ,受到 业界 青睐 ,并 得 到 了 越 来 越 广泛 的 应 用 。 不 过 ,需要 注意 的 
是 ,Docker 是 基于 64 位 Linux 的 ,无 法 在 32 位 的 Linux/Windows/UNIX 环境 下 使 用 。 


2 安装 Docker 


安装 Docker 之 前 ,必须 首先 保证 机 器 上 安装 的 是 64 位 Linux 系统 ;其 次 ,内 核 版 本 必 
须 大 于 3. 10。 可 以 用 如 下 命令 来 检测 机 器 上 已 经 安装 好 的 Ubuntu 系统 的 内 核 版 本 : 











Suname -r 





然后 需要 先 更 新 apt, 安装 CA 证 书 , 因 为 访问 Docker 使 用 的 是 HTTPS 协议 ,命令 
如 下 : 





$sudo apt- get update 
$sudo apt-get install apt- transport- https ca- certificates 











执行 如 下 命令 添加 新 的 GPG key: 





$sudo apt- key adv V 
—-keyserver hkp://ha.pool.sks- keyservers.net:80 V 
—- recv- keys 58118E89F3A912897C070ADBF76221572C52609D 











执行 如 下 命令 为 Ubuntu 系统 添加 Docker 安装 源 ( 也 就 是 可 以 获得 Docker 安装 包 的 
地 方 ) : 





$echo deb https://apt.dockerproject.org/repo ubuntu- xenial main | sudo tee 


/etc/apt/sources.list.d/docker.list 





执行 如 下 命令 更 新 apt 软件 列表 : 





$sudo apt-get update 











第 3: Hadoop 的 安装 和 使 用 


接着 可 以 用 如 下 命令 验证 一 下 是 否 从 正确 的 仓库 拉 取 安装 包 : 





Sapt- cache policy docker- engine 





如 果 有 类 似 于 下 面 的 输出 , 则 说 明 从 正确 的 仓库 获取 包 : 





docker- engine: 

Installed: 1.12.2- 0^trusty 

Candidate: 1.12.2- 0~trusty 

Version table: 

** 1.12.2- 0~trusty 0 

500 https://apt.dockerproject.org/repo/ ubuntu- trusty/main amd64 Packages 
100 /var/lib/dpkg/status 

1.12.1- 0-trusty 0 
500 https://apt.dockerproject.org/repo/ ubuntu- trusty/main amd64 Packages 

1.12.0- 0~trusty 0 
500 https://apt.dockerproject.org/repo/ ubuntu- trusty/main amd64 Packages 





接 下 来 可 以 直接 安装 Docker, 命 令 如 下 : 





$sudo apt-get install docker- engine 





等 这 个 命令 结束 之 后 ,Docker 即 安装 完成 。 可 以 通过 下 面 命令 开启 Docker 服务 : 





$sudo service docker start 











然后 可 以 运行 Docker 官方 提供 的 hello-world 程序 来 检测 Docker 是 否 能 够 顺利 运行 
程序 : 





$sudo docker run hello- world 











执行 上 述 命令 以 后 ,屏幕 上 会 返回 很 多 信息 ,如果 其 中 包含 如 下 所 示 信 息 , 则 表示 安装 
RIJ: 





Hello from Docker! 





This message shows that your installation appears to be working correctly. 








对 于 Docker 而 言 ,默认 情况 下 只 有 root 用 户 才能 执行 Docker 命令 ,因此 ,还 需要 添加 
用 户 权限 。 首 先 需 要 使 用 如 下 命令 创建 Docker 用 户 组 : 





$sudo groupadd docker 











然后 添加 当前 用 户 到 Docker 用 户 组 ,命令 如 下 : 
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$sudo usermod ~ aG docker hadoop 








由 于 本 书 全 部 采用 hadoop 用 户 登录 Linux 系统 ,所 以 ,上 面 的 命令 中 使 用 了 hadoop 用 
户 名 。 执 行 上 述 命 令 以 后 ,需要 注销 当前 登录 ,然后 再 次 用 hadoop 用 户 登录 系统 ,就 可 以 顺 
畅 地 执行 Docker 命令 了 。 


3. 在 Docker 上 安装 Ubuntu 系统 


安装 好 Docker 之 后 , 接 下 来 就 要 在 Docker 上 安装 Ubuntu。 可 以 直接 从 Docker 上 下 
载 Ubuntu 镜像 文件 ,命令 如 下 : 





$docker pull ubuntu 





docker pull 命令 表示 从 Docker hub 上 拉 取 Ubuntu 镜像 到 本 地 。 执 行 该 命令 以 后 ,可 
以 在 执行 下 面 命令 查看 是 否 安装 成 功 : 





$docker images 





docker images 表示 列 出 Docker 上 所 有 的 镜像 。 镜 像 也 是 一 堆 文 件 , 如 果 输 出 类 似 如 
下 的 信息 则 表示 安装 成 功 : 





REPOSITORY TAG IMAGE ID CREATED SIZE 
ubuntu latest 4ca3al92ff2a lldays ago 128.2 MB 











然后 需要 在 Docker 上 开启 Ubuntu 系统 ,也 就 是 启动 Ubuntu 镜像 。 在 启动 Ubuntu 
镜像 之 前 ,需要 先 在 当前 登录 用 户 (hadoop) 的 用 户 目 录 下 创建 一 个 子 目录 ,用 于 向 Docker 
内 部 的 Ubuntu 系统 传输 文件 ,请 在 本 地 Ubuntu 系统 (不 是 Docker 中 的 Ubuntu 系统 ) 中 
执行 如 下 命令 : 





$cd~ 
Smkdir build 











现在 就 可 以 在 Docker 上 启动 运行 Ubuntu 系统 了 ,在 本 地 Ubuntu 系统 中 执行 如 下 


命令 : 





$docker run -it -v /home/hadoop/build:/root/build - - name ubuntu ubuntu 











上 面 命令 的 含义 如 下 。 

(1) docker run 表示 运行 一 个 镜像 。 

(2) -i 表 示 开 启 交 互 式 ;-t 表示 分 配 一 个 tty( 可 以 理解 为 一 个 控制 台 ); 因 此 ,-it 可 以 理 
解 为 在 当前 终端 上 与 Docker 内 部 的 Ubuntu 系统 进行 交互 。 

(3) -v 表示 Docker 内 部 的 Ubuntu 系统 中 的 /root/build 目录 与 本 地 的 /home/ 
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hadoop/build 目录 共享 ,这 样 就 可 以 很 方便 地 将 本 地 文件 上 传 到 Docker 内 部 的 Ubuntu 系 
统 中 。 

(4) 一 name ubuntu 表示 Ubuntu 镜像 启动 名 称 ,如果 没 有 指定 ,那么 Docker 将 会 随机 
分 配 一 个 名 字 。 

(5) ubuntu: 命令 中 的 最 后 一 个 ubuntu, 表 示 docker run 启动 的 镜像 文件 。 


4 Ubuntu 系统 初始 化 


刚 安装 好 的 Ubuntu 系统 ,是 一 个 很 纯净 的 系统 ,很 多 软件 是 没有 安装 的 ,所 以 需要 先 
更 新 一 下 Ubuntu 系统 的 软件 源 并 安装 一 些 必 备 的 软件 。 

1) 更 新 系统 软件 源 

在 Docker 上 的 Ubuntu 系统 (不 是 本 地 Ubuntu 系统 ) 中 执行 下 面 命令 更 新 软件 源 : 





$apt- get update 





2) 安装 vim 编辑 器 
在 Docker 上 的 Ubuntu 系统 中 执行 下 面 命令 安装 vim 编辑 器 : 





$apt-get install vim 











3) 安装 和 配置 sshd 
接着 安装 sshd, 因为 在 开启 分 布 式 Hadoop 时 ,需要 用 到 SSH 连接 Slave 机 器 ,在 
Docker 上 的 Ubuntu 系统 中 执行 如 下 命令 : 





$apt-get install ssh 





然后 在 Docker 上 的 Ubuntu 系统 中 运行 如 下 脚本 即 可 开启 sshd 服务 器 : 





$/etc/init.d/ssh start 











但 是 ,这 样 每 次 在 启动 镜像 时 ,都 需要 手动 开启 sshd 服务 ,因此 ,可 以 把 启动 命令 写 进 
一 /. bashrc 文件 ,从 而 在 每 次 登录 Ubuntu 系统 时 ,都 能 自动 启动 sshd 服务 。 用 vim 编辑 
器 打开 一 /. bashrc 文件 ,在 该 文件 最 后 一 行 添加 如 下 内 容 : 





/etc/init.d/ssh start 











安装 好 sshd 之 后 ,需要 配置 SSH 无 密码 连接 本 地 sshd 服务 ,在 Docker 上 的 Ubuntu 
系统 中 执行 如 下 命令 : 





$ssh- keygen -t rsa # 一 直 按 Enter 键 即 可 
$cd ~./ssh 
$cat id dsa.pub >> authorized keys 
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执行 完 上 述 命令 之 后 , 即 可 无 密码 访问 本 地 sshd 服务 。 

4) 安装 Java 

因为 Hadoop 需要 使 用 Java 环境 ,因此 ,需要 安装 JDK。 可 以 在 Docker 上 的 Ubuntu 
系统 中 直接 输入 以 下 命令 来 安装 JDK 














Sapt-get install default- jdk 





这 个 命令 会 安装 比较 多 的 库 , 并 会 消耗 较 长 时 间 。 等 待 这 个 命令 运行 结束 之 后 ,JDK 
安装 就 顺利 完成 了 。 然 后 ,需要 配置 环境 变量 ,打开 一 /. bashre 文件 ,在 文件 的 最 开始 位 置 
增加 如 下 内 容 : 





export JAVA HOME- /usr/lib/jvm/java- 8- openjdk- amd64/ 
export PATH-$PATH:$JAVA HOME/bin 





接着 在 Docker 上 的 Ubuntu 系统 中 执行 如 下 命令 使 一 /. bashrc 配置 文件 生效 ; 





$source ~/.bashrc 











5) 保存 镜像 文件 

在 Docker 内 部 对 容器 做 的 修改 ,是 不 会 自动 保存 到 镜像 中 的 ,也 就 是 说 ,上 面 尽 管 对 容 
器 进行 了 大 量 配 置 , 但 是 ,一 旦 把 容器 关闭 ,然后 重新 开启 容器 , 则 之 前 的 设置 会 全 部 消失 ; 
因此 ,需要 保存 当前 的 容器 配置 。 为 了 达到 复 用 容器 的 配置 信息 ,在 每 个 步骤 完成 之 后 ,都 
应 该 保存 成 一 个 新 的 镜像 ,然后 开启 并 运行 保存 后 的 新 镜像 即 可 。 为 了 把 容器 配置 保存 成 
新 的 镜像 ,首先 需要 到 Docker 官网 (https://hub. docker. com/) 注 册 一 个 账号 ,账号 注册 成 
功 后 ,然后 在 本 地 Ubuntu 系统 (不 是 Docker 中 的 Ubuntu 系统 ) 中 新 建 一 个 终端 ,输入 如 下 
MA: 





$docker login 





然后 会 有 如 下 提示 信息 ,输入 上 面 注册 的 用 户 名 和 密码 即 可 : 





Login with your Docker ID to push and pull images from Docker Hub. If you don't have a Docker 
ID, head over to https://hub.docker.com to create one. 

Username: 

Password: 


Login Succeeded 





登录 之 后 ,首先 在 本 地 Ubuntu 系统 中 使 用 如 下 命令 查看 当前 运行 的 容器 的 信息 : 





$docker ps 
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输出 结果 如 下 : 








CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 


fdlfc69d75a3 ubuntu "/bin/bash" About an hour ago Up About an hour ubuntu 








从 上 面 的 结果 信息 可 以 看 出 ,当前 运行 的 Ubuntu 镜像 的 ID 是 fdlfc69d75a3。 然 后 在 


本 地 Ubuntu 系统 中 输入 以 下 命令 ,把 修改 后 的 容器 保存 成 为 一 个 新 的 镜像 ,新 镜像 的 名 称 
是 ubuntu/jdkinstalled, 表 示 该 镜像 中 已 经 包含 了 JDK: 











$docker commit fdlfc69d75a3 ubuntu/jdkinstalled 





其 中 ,docker commit 后 面 的 fdlfc69d75a3 是 当前 运行 的 Ubuntu 镜像 的 ID。 输 出 结果 
如 下 : 











sha256:05c9bc2b849359d029d417421d6968bdd239aad447ac6054c429b630378118aa 





最 后 在 本 地 Ubuntu 系统 的 另 一 个 终端 中 使 用 如 下 命令 查看 所 有 镜像 ,确认 一 下 新 的 


镜像 是 否 保存 成 功 : 





$docker images 














输出 结果 如 下 : 

REPOSITORY TAG IMAGE ID CREATED SIZE 
ubuntu/jdkinstalled latest  05c9bc2b8493 9 seconds ago 899.3 MB 
ubuntu latest 4ca3al92ff2a 12 days ago 128.2 MB 





从 上 面 输出 结果 可 以 看 出 ,目前 系统 中 已 经 有 两 个 镜像 : 一 个 是 ubuntu 镜像 ; 另 一 个 


是 刚才 新 建 的 镜像 ubuntu/jdkinstalled 。 


5. 安装 Hadoop 
下 面 开始 安装 Hadoop。 需 要 首先 在 本 地 Ubuntu 系统 中 启动 之 前 保存 的 镜像 
ubuntu/jdkinstalled, 命 令 如 下 : 





$ docker run - it - v /home/hadoop/build:/root/build - - name ubuntu - jdkinstalled 
ubuntu/jdkinstalled 





可 以 在 本 地 Ubuntu 系统 中 的 另 一 个 终端 中 使 用 如 下 命令 查看 启动 的 容器 : 











$docker ps 





输出 结果 如 下 : 


^g 
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$CONTAINER ID 
325alc2f2f93 

IMAGE 
ubuntu/jdkinstalled 
COMMAND 

"/bin/bash" 

CREATED 

6 seconds ago 
STATUS 

Up 5 seconds 

PORTS NAMES 

ubuntu- jdkinstalled 











启动 容器 以 后 ,在 这 个 容器 中 就 运行 了 Ubuntu 系统 (包含 JDK)。 前 面 已 经 下 载 了 
Hadoop 安装 文件 hadoop-2. 7. 1. tar. gz, 现 在 需要 把 该 安装 文件 放 到 本 地 Ubuntu 系统 的 
共享 目录 /home/hadoop/build 下 面 ; 然 后 在 Docker 内 部 Ubuntu 系统 的 /root/build 目录 
即 可 获取 到 该 Hadoop 安装 文件 。 实 际 上 ,在 Docker 内 部 的 Ubuntu 系统 上 面 安 装 
Hadoop 的 过 程 , 和 之 前 介绍 的 单机 模式 安装 Hadoop 是 一 样 的 。 具 体 而 言 ,需要 首先 在 
Docker 内 部 的 Ubuntu 系统 上 面 输入 如 下 命令 对 安装 文件 进行 解压 缩 操作 : 





$cd /root/build 
$tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local 











如 果 是 单机 模式 安装 Hadoop, 到 这 里 就 已 经 顺利 完成 了 安装 ,可 以 运行 如 下 命令 测试 
是 否 安装 正确 (在 Docker 内 部 的 Ubuntu 系统 上 面 运 行 命令 ,不 是 在 本 地 Ubuntu 系统 上 面 
运行 命令 ): 





$cd /usr/local 

$mv ./hadoop- 2.7.1 ./hadoop 
$cd hadoop 

$./bin/hadoop version 





输出 的 信息 如 下 : 





Hadoop 2.7.1 

Subversion https://git- wip- us.apache.org/repos/asf/hadoop.git- r 
15ecc87ccf4a0228f35af08fc56de536e6ce657a 

Compiled by jenkins on 2015- 06- 29T06:042 

Compiled with protoc 2.5.0 

From source with checksum fc0ala23fc1868e4d5ee7fa2b28a58a 

This command was run using /usr/local/hadoop/share/hadoop/common/hadoop- 
common-2.7.1.jar 











6. 配置 Hadoop 集群 
现在 介绍 如 何 配置 Hadoop 集群 ,需要 修改 /usr/local/hadoop/etc/hadoop 目录 下 的 配 
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置 文件 hadoop_env. sh, core-site. xml, hdfs-site. xml, mapred-site. xml 和 yarn-site. xml, 
首先 使 用 vim 编辑 器 打开 hadoop_env. sh 文件 ,命令 如 下 (在 Docker 内 部 的 Ubuntu 系统 
中 运行 命令 ) : 





$cd /usr/local/hadoop 
$vim etc/hadoop/hadoop- env.sh 





打开 hadoop env. sh 文件 以 后 ,在 该 文件 的 最 前 面 增加 如 下 内 容 : 





export JAVA HOME- /usr/lib/jvm/java- 8- openjdk- amd64/ 











然后 保存 该 文件 ,退出 vim 编辑 器 。 类 似 地 ,使 用 vim 编辑 器 打开 core-site. xml 文件 ， 
并 在 文件 中 输入 以 下 内 容 : 





<configuration> 
<property> 
« name» hadoop.tmp.dir« /name> 
« value» file:/usr/local/hadoop/tmp« /value» 
«description» Abase for other temporary directories.« /description» 
< /property» 
«property» 
<name> £s .defaultFS« /name» 
€ value» hdfs://master:9000« /value» 
< /property» 
< /configuration» 





使 用 vim 编辑 器 打开 hdfs-site. xml 文件 ,并 在 文件 中 输入 以 下 内 容 : 





<configuration> 
<property> 
< name» dfs.namenode.name.dir< /name» 
« value» file:/usr/local/hadoop/namenode dir< /value» 
< /property» 
«property» 
«name» dfs.datanode.data.dir« /name» 
«value» file:/usr/local/hadoop/datanode dir< /value» 
< /property» 
«property» 
«name» dfs.replication« /name» 
«value» 3< /value> 
< /property» 
< /configuration» 











再 使 用 vim 编辑 器 打开 mapred-site. xml 文件 (可 以 复制 mapred-site. xml. template, 
再 修改 文件 名 得 到 mapred-site. xml 文件 ) ,并 在 文件 中 输入 以 下 内 容 : 





«configuration» 
«property» 











大 数据 基础 编程 、 实 验 和 案例 教程 





«name» mapreduce.framework.name« /name> 
«value» yarn« /value» 
< /property» 


< /configuration» 





最 后 修改 yarn-site. xml 文件 ,在 该 文件 中 输入 以 下 内 容 : 





< configuration» 
<!--Site specific YARN configuration properties-—> 
«property» 
«name» yarn.nodemanager .aux- services« /name> 
«value»mapreduce shuffle« /value» 
< /property» 
«property» 
<name> yarn.resourcemanager.hostname« /name> 
«value»master« /value» 
< /property» 
< /configuration» 











至 此 ,Hadoop 集群 配置 顺利 结束 。 需 要 首先 保存 这 个 镜像 ,需要 在 本 地 Ubuntu 系统 
(不 是 Docker 内 部 的 Ubuntu 系统 ) 的 终端 中 输入 如 下 命令 : 





$ docker commit a40b99f869ae ubuntu/hadoopinstalled 











接 下 来 在 本 地 Ubuntu 系统 中 (不 是 Docker 内 部 的 Ubuntu 系统 ) 打 开 3 个 终端 窗口 ， 
每 个 终端 上 分 别 启动 一 个 容器 运行 ubuntu/hadoopinstalled 镜像 ,分 别 表 示 Hadoop 集群 中 
的 Master,Slave01 和 Slave02 : 





# 在 第 一 个 终端 中 执行 下 面 命令 

$docker run -it -h master - - name master ubuntu/hadoopinstalled 

# 在 第 二 个 终端 中 执行 下 面 命令 

$docker run - it -h slave01 -- name slave01 ubuntu/hadoopinstalled 
# 在 第 三 个 终端 中 执行 下 面 命令 


$docker run -it -h slave02 -- name slave02 ubuntu/hadoopinstalled 











接着 需要 配置 Master、Slave01 和 Slave02 的 地 址 信息 ,使 得 它们 可 以 找到 彼此 。 在 3 
个 终端 中 分 别 打 开 /etc/hosts 文件 ,可 以 查看 本 机 的 IP 和 主机 名 信息 ,最 后 得 到 3 个 IP 和 
主机 地 址 信息 如 下 : 





172.18.0.2 Master 
172.18.0.3 Slave01 
172.18.0.4 Slave02 
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最 后 把 上 述 3 个 地 址 信息 分 别 复 制 到 Master、Slave01 和 Slave02 的 /etc/hosts 文件 
中 ,也 就 是 复制 到 各 自 Docker 容器 内 部 的 Ubuntu 系统 的 /etc/hosts 文件 中 。 然 后 ,可 
作为 Master 节点 的 Docker 容器 内 部 的 Ubuntu 系统 的 终端 中 ,使 用 如 下 命令 来 检测 一 
Master 是 否 可 以 成 功 连 上 Slave01 和 Slave02 : 





$ssh slave01 


$ssh slave02 











最 后 还 需要 打开 Master 节点 上 的 slaves 文件 ,输入 两 个 Slave 节点 的 主机 名 ,请 在 
Master 节点 中 的 终端 中 执行 如 下 命令 : 





$cd/usr/local/hadoop 


$vim etc/hadoop/slaves 











上 面 命令 执行 后 ,就 使 用 vim 编辑 器 打开 了 slaves 文件 ,需要 修改 该 文件 的 配置 ,把 文 
件 中 的 localhost 替换 成 两 个 Slave 节点 的 主机 名 ,分别 放 在 两 行 上 ,最 终 ,slaves 文件 的 内 
容 只 有 如 下 两 行 : 





Slave01 


Slave02 





至 此 ,Hadoop 集群 已 经 配置 完成 ,现在 可 以 启动 集群 ,在 Master 节点 的 终端 中 执行 如 


下 命令 : 





$cd /usr/local/hadoop 
$bin/hdfs namenode - format 
$sbin/start-all.sh 











Hadoop 集群 就 已 经 启动 ,可 以 在 Master, Slave01 和 Slave02 这 3 个 节点 上 分 别 


时 
DO jps 查看 运行 结果 ,如 图 3-22 一 图 3-24 所 示 。 





图 3-22 1E Master 节点 上 运行 jps 命令 的 结果 图 3-23 在 Slave01 节点 上 运行 jps 命令 的 结果 





图 3-24 在 Slave02 节点 上 运行 jps 命令 的 结果 
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7 运行 Hadoop 程序 实例 


到 目前 为 止 ,我 们 已 经 采用 容器 的 方式 成 功 启动 Hadoop 分 布 式 集群 , 接 下 来 ,可 以 运 
行 Hadoop 自 带 的 grep 实例 进行 测试 。 因 为 要 用 到 HDFS, 所 以 ,需要 先 在 HDFS 上 创建 
一 个 目录 ,在 Master 节点 的 终端 中 执行 如 下 命令 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -mkdir -p /user/hadoop/input 











然后 将 /usr/local/hadoop/etc/hadoop/ 目 录 下 的 所 有 文件 复制 到 HDFS 中 ,需要 在 
Master 节点 的 终端 中 继续 执行 如 下 命令 : 





$./bin/hdfs dfs -put ./etc/hadoop/* .xml /user/hadoop/input 











然后 通过 ls 命令 查看 下 是 否 正确 将 文件 上 传 到 HDFS ,需要 在 Master 节点 的 终端 中 
继续 执行 如 下 命令 : 





$./bin/hdfs dfs - 1s /user/hadoop/input 





输出 结果 如 下 : 





Found 9 items 


-rw-r--r-- 3 root supergroup 4436 2016- 12- 26 07:40 /user/hadoop/input/ 
capacity- scheduler.xml 

-rw-r--r-- 3 root supergroup 1090 2016- 12- 26 07:40 /user/hadoop/input/ 
core- site.xml 

-rw-r--r-- 3 root supergroup 9683 2016- 12- 26 07:40 /user/hadoop/input/ 
hadoop- policy.xml 

-rw-r--r-- 3 root supergroup 1133 2016- 12- 26 07:40 /user/hadoop/input/ 
hdfs- site.xml 

-rw-r--r-- 3 root supergroup 620 2016- 12- 26 07:40 /user/hadoop/input/ 
httpfs- site.xml 

-rw-r--r-- 3 root supergroup 3518 2016- 12- 26 07:40 /user/hadoop/input/ 
kms- acls.xml 

-rw-r--r-- 3 root supergroup 5511 2016- 12- 26 07:40 /user/hadoop/input/ 
kms- site.xml 

-rw-r--r-- 3 root supergroup 866 2016- 12- 26 07:40 /user/hadoop/input/ 
mapred- site.xml 

-rw-r--r-- 3 root supergroup 947 2016- 12- 26 07:40 /user/hadoop/input/ 


yarn-site.xml 











接 下 来 在 Master 节点 的 终端 中 继续 运行 下 面 命令 执行 实例 程序 : 
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$./bin/hadoop jar ./share/hadoop/mapreduce/hadoop- mapreduce- examples- * .jar grep 
/user/hadoop/input output 'dfs[a-z.]* ' 











等 待 这 个 程序 运行 结束 之 后 ,就 可 以 在 HDFS 上 的 output 目录 下 查看 到 运行 结果 ,在 
Master 节点 的 终端 中 执行 如 下 命令 : 





$./bin/hdfs dfs - cat output/ * 











运行 结果 如 下 : 





dfsadmin 
dfs.replication 
dfs.namenode.name.dir 
dfs.datanode.data.dir 











如 果 得 到 类 似 上 述 的 结果 , 则 说 明 在 Hadoop 分 布 式 集群 中 顺利 执行 了 grep 程序 。 


3.4 本章 小 结 


Hadoop 是 当前 流行 的 分 布 式 计 算 框架 ,在 企业 中 得 到 了 广泛 的 部 署 和 应 用 。 本 章 重 
点 介绍 如 何 安 装 Hadoop, 从 而 为 后 续 章 节 开 展 HDFS 和 MapReduce 编程 实践 奠定 基础 。 

Hadoop 是 基于 Java 开发 的 ,需要 运行 在 JVM 中 ,因此 ,需要 为 Hadoop 配置 相应 的 
Java 环境 。Hadoop 包含 3 种 安装 模式 , 即 单机 模式 、 伪 分 布 式 模式 和 分 布 式 模式 。 本 童 分 
别 介绍 3 种 不 同 模式 的 安装 配置 方法 。 在 初学 阶段 ,建议 采用 伪 分 布 式 模式 配置 ,这 样 可 以 
快速 构建 起 Hadoop 实战 环境 ,有 效 开 展 基 础 编程 工作 。 

Docker 是 目前 比较 热门 的 容器 技术 ,相对 于 VMware 和 VirtualBox 等 虚拟 化 技术 而 
言 ,Docker 也 可 以 被 视 为 一 种 轻 量 级 虚拟 化 技术 ,可 以 在 普通 PC 上 快速 构建 起 Hadoop 集 
群 ,完成 相关 大 数据 实验 ,本 童 简要 介绍 了 使 用 Docker 搭建 Hadoop 分 布 式 集群 的 方法 。 
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Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 是 Hadoop 核心 组 
件 之 一 , 它 开源 实现 了 谷歌 分 布 式 文件 系统 (Google File System,GFS) 的 基本 思想 。HDFS 
支持 流 数据 读 取 和 处 理 超大 规模 文件 ,并 能 够 运行 在 由 廉价 的 普通 机 器 组 成 的 集群 上 ,这 主 
要 得 益 于 HDFS 在 设计 之 初 就 充分 考虑 了 实际 应 用 环境 的 特点 , 即 硬件 出 错 在 普通 服务 器 
集群 中 是 一 种 常态 ,而 不 是 异常 ,因此 ,HDFS 在 设计 上 采取 了 多 种 机 制 保证 在 硬件 出 错 的 
环境 中 实现 数据 的 完整 性 。 安 装 Hadoop 以 后 ,就 已 经 包含 了 HDFS 组 件 ,不 需要 另外 

本 章 首 先 介绍 HDFS 操作 常用 的 Shell 命令 ;然后 介绍 利用 HDFS 提供 的 Web 管理 界 
面 查看 HDFS 相关 信息 ;最 后 ,详细 讲解 如 何 编写 和 运行 访问 HDFS 的 Java 应 用 程序 。 


4.1 HDFS 操作 常用 Shell 命令 


Hadoop 支持 很 多 Shell 命令 ,例如 hadoop fs hadoop dfs 和 hdfs dfs 都 是 HDFS 最 常 
用 的 Shell 命令 ,分别 用 来 查看 HDFS 文件 系统 的 目录 结构 、 上 传 和 下 载 数 据 、 创 建文 件 等 。 
这 3 个 命令 既 有 联系 有 又 区 别 。 

(1) hadoop fs: 适用 于 任何 不 同 的 文件 系统 ,例如 本 地 文件 系统 和 HDFS 文件 系统 。 

(2) hadoop dfs: 只 能 适用 于 HDFS 文件 系统 。 

(3) hdfs dfs: 跟 hadoop dfs 命令 的 作用 一 样 ,也 只 能 适用 于 HDFS 文件 系统 。 

在 本 书 中 ,统一 使 用 hdfs dfs 命令 对 HDFS 进行 操作 。 


4.1.1 查看 命令 使 用 方法 
登录 Linux 系统 ,打开 一 个 终端 ,首先 启动 Hadoop, 命 令 如 下 : 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 





可 以 在 终端 输入 如 下 命令 ,查看 hdfs dfs 总 共 支 持 哪些 操作 。 





$cd /usr/local/hadoop 
$./bin/hdfs dfs 
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上 述 命令 执行 后 ,会 显示 类 似 如 下 的 结果 (这 里 只 列 出 部 分 命令 ) : 








[-appendToFile … ] 

[-cat [-ignoreCrc] …] 

[- checksum …] 

[-chgrp [-R] GROUP PATH- ] 

[-chmod [-R]« MODE[,MODE]… | OCTALMODE» PATH*** ] 
-chown [-R] [OWNER] [: [GROUP]] PATH--] 
[-copyFromLocal [-f£] [-p] [-1] … ] 
[-copyToLocal [-p] [-ignoreCrc] [-crc] … ] 
[-count [-q] [-h] …] 





-cp [-f] [-p | -P[topax]] = ] 
-createSnapshot []] 

- deleteSnapshot ] 

-df [-h] […]] 

eda [ssl php esq 

- expunge] 

-find**] 

-get [-p] [-ignoreCrc] [-crc] *… ] 
-getfacl [-R] ] 

-getfattr [-R] (-n name | -d) [-e en] ] 
-getmerge [-nl] ] 

-help [cmd **:]] 

-1s [-d] [-h] [-R] e] 


-mkdir [-p] …] 
-moveFromLocal ** ] 
-moveToLocal ] 

-mv… ] 


-put [-f] 








-pr pipe] 








可 以 看 出 ,hdfs dfs 命令 的 统一 格式 是 类 似 hdfs dfs -ls 这 种 形式 , 即 在 “-” 后 面 跟 上 具 
体 的 操作 。 
可 以 查看 某 个 命令 的 作用 ,例如 , 当 需 要 查询 put 命令 的 具体 用 法 时 ,可 以 采用 如 下 








$./bin/hdfs dfs - help put 





输出 的 结果 如 下 : 








-put [-f] [-p] [-1] ** : 


Copy files from the local file system into fs. Copying fails if the file already exists, 


unless the -f flag is given. 
Flags: 


-p Preserves access and modification times, ownership and the mode. 
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-f Overwrites the destination if it already exists. 
-1 Allow DataNode to lazily persist the file to disk. Forces replication factor of 1. This 
flag will result in reduced durability. Use with care. 











4.1.2 HDFS 目录 操作 


l 目录 操作 


需要 注意 的 是 ,Hadoop 系统 安装 好 以 后 ,第 一 次 使 用 HDFS 时 ,需要 首先 在 HDFS 中 
创建 用 户 目录 。 本 书 全 部 采用 hadoop 用 户 登 录 Linux 系统 ,因此 ,需要 在 HDFS 中 为 
hadoop 用 户 创建 一 个 用 户 目 录 , 命 令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -mkdir -p /user/hadoop 











该 命令 中 表示 在 HDFS 中 创建 一 个 /user/hadoop H 3 .-mkdir 是 创建 目录 的 操作 ,-p 
表示 如 果 是 多 级 目录 , 则 父 目 录 和 子 目 录 一 起 创建 ,这 里 /user/hadoop 就 是 一 个 多 级 目录 ， 
因此 必须 使 用 参数 -p, 和 否则 会 出 错 。 

/user/hadoop 目录 就 成 为 hadoop 用 户 对 应 的 用 户 目录 ,可 以 使 用 如 下 命令 显示 
HDFS 中 与 当前 用 户 hadoop 对 应 的 用 户 目录 下 的 内 容 : 


$./bin/hdfs dfs -1s. 


该 命令 中 ,-ls 表示 列 出 HDFS 某 个 目录 下 的 所 有 内 容 ,“. "表示 HDFS 中 的 当前 用 户 
目录 ,也 就 是 /user/hadoop 目录 ,因此 ,上 面 的 命令 和 下 面 的 命令 是 等 价 的 : 





$./bin/hdfs dfs - 1s /user/hadoop 





如 果 要 列 出 HDFS 上 的 所 有 目录 ,可 以 使 用 如 下 命令 : 





$./bin/hdfs dfs -1s 





下 面 可 以 使 用 如 下 命令 创建 一 个 input HR: 











$./bin/hdfs dfs -mkdir input 





在 创建 个 input 目录 时 ,采用 了 相对 路 径 形式 ,实际 上 ,这 个 input 目录 创建 成 功 以 后 ， 
它 在 HDFS 中 的 完整 路 径 是 /user/hadoop/input。 如 果 要 在 HDFS 的 根 目录 下 创建 一 个 名 
FRH input 的 目录 , 则 需要 使 用 如 下 命令 : 





$./bin/hdfs dfs -mkdir /input 











可 以 使 用 rm 命令 删除 一 个 目录 ,例如 ,可 以 使 用 如 下 命令 删除 刚才 在 HDFS 中 创建 
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的 /input 目录 (不 是 /user/hadoop/input 目录 ): 








$./bin/hdfs dfs - rm -r /input 








上 面 命令 中 ,-r 参数 表示 如 果 删 除 /input 目录 及 其 子 目录 下 的 所 有 内 容 , 如 果 要 删除 的 
一 个 目录 包含 了 子 目 录 , 则 必须 使 用 -r 参数 ,否则 会 执行 失败 。 


2 文件 操作 
在 实际 应 用 中 ,经 常 需要 从 本 地 文件 系统 向 HDFS 中 上 传 文件 ,或 者 把 HDFS 中 的 文 
件 下 载 到 本 地 文件 系统 中 。 


首先 使 用 vim 编辑 器 ,在 本 地 Linux 文件 系统 的 /home/hadoop/ 目 录 下 创建 一 个 文件 
myLocalFile. txt, 里 面 可 以 随意 输入 一 些 单词 ,例如 ,输入 如 下 三 行 : 





Hadoop 
Spark 
XMU DBLAB 











然后 可 以 使 用 如 下 命令 把 本 地 文件 系统 的 /home/hadoop/myLocalFile. txt 上 传 到 
HDFS 中 的 当前 用 户 目 录 的 input 目录 下 ,也 就 是 上 传 到 HDFS 的 /user/hadoop/input/ 目 
RF: 





$./bin/hdfs dfs -put /home/hadoop/myLocalFile.txt input 





可 以 使 用 ls 命令 查看 一 下 文件 是 否 成 功 上 传 到 HDFS 中 ,具体 如 下 : 





$./bin/hdfs dfs - 1s input 





该 命令 执行 后 会 显示 类 似 如 下 的 信息 : 





Found 1 items 


-rw-r--r-- 1 hadoop supergroup 36 2017- 01- 02 23:55 input/ myLocalFile.txt 





下 面 使 用 如 下 命令 查看 HDFS 中 的 myLocalFile. txt 这 个 文件 的 内 容 : 





$./bin/hdfs dfs - cat input/myLocalFile.txt 











下 面 把 HDFS 中 的 myLocalFile. txt 文件 下 载 到 本 地 文件 系统 中 的 “/home/hadoop/ 下 
载 /” 这 个 目录 下 ,命令 如 下 : 





$./bin/hdfs dfs - get input/myLocalFile.txt /home/hadoop/ 下 载 











可 以 使 用 如 下 命令 ,从 本 地 文件 系统 查看 下 载 下 来 的 文件 myLocalFile. txt: 
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$cd ~ 

$ca 下 载 

$1s 

$cat myLocalFile.txt 











最 后 了 解 一 下 如 何 把 文件 从 HDFS 中 的 一 个 目录 复制 到 HDFS 中 的 另外 一 个 目录 。 
例如 ,如 果 要 把 HDFS fij /user/hadoop/input/myLocalFile. txt 文件 ,复制 到 HDFS 的 另外 
一 个 目录 /input 中 (注意 ,这 个 input 目录 位 于 HDFS f H 3t FO ,可 以 使 用 如 下 命令 : 








$./bin/hdfs dfs - cp input/myLocalFile.txt /input 











4.2 利用 HDFS 的 Web 管理 界面 


HDFS 提供 了 Web 管理 界面 ,可 以 很 方便 地 查看 HDFS 相关 信息 。 需 要 在 Linux 系 
统 中 (不 是 Windows 系统 ) 打 开 自 带 的 Firefox 浏览 器 ,在 浏览 器 地 址 栏 中 输入 http:// 
localhost:50070 , 按 Enter 键 后 就 可 以 看 到 如 图 4-1 所 示 的 HDFS 的 Web 管理 界面 。 


Namenodeinformation x 


4€) © | localhost: 50070/dfshealth htmlsttab-overview c|amz 





Hadoop 


Overview 'ocalhost:9000' (active) 


Started: Mon Jan 02 20:0040 CST 2017 

Version: 2.7T.Lrl5eccsTccl430228f35afosfc56de536e6ce6573 
Compiled: 2015-06-29T06:047 by jenkins from (detached from 15ecc&T) 
Cluster 1D: CID-432df9ea a4c3.4Ta8 acd5-e169c463c48e 

Block Pool ID: B2-1618423096-127.0.1.1-146932373275T 











图 4-1 HDFS 的 Web 管理 界面 


1E HDFS 的 Web 管理 界面 中 ,包含 了 Overview, Datanodes, Datanode Volume Failures、 
Snapshot,Startup Progress 和 Utilities 等 菜单 选项 , 单 击 每 个 菜单 选项 可 以 进入 相应 的 管 
理 界 面 ,查询 各 种 详细 信息 。 


4.3 HDFS 编程 实践 


Hadoop 采用 Java 语言 开发 ,提供 了 Java API 与 HDFS 进行 交互 。 上 面 介 绍 的 Shell 
命令 ,在 执行 时 实际 上 会 被 系统 转换 成 Java API 调用 。Hadoop 官方 网 站 提供 了 完整 的 
Hadoop API 文档 (http://hadoop. apache. org/docs/stable/api/), 想 要 深入 学 习 Hadoop 
编程 ,可 以 访问 Hadoop 官网 查看 各 个 API 的 功能 和 用 法 。 本 书 只 介绍 基础 的 HDFS 
编程 。 


第 4 章  HDFS 操作 方法 和 基础 编程 
为 了 提高 程序 编写 和 调试 效率 ,本 书 采用 Eclipse 工具 编写 Java 程序 。 
4.3.1 在 Eclipse 中 创建 项 目 


首先 请 参照 第 2 章 的 内 容 完成 Eclipse 的 安装 ;然后 启动 Eclipse。 当 Eclipse 启动 以 
后 ,会 弹出 如 图 4-2 所 示 的 界面 ,提示 设置 工作 空间 (workspace) 。 


X Workspace Launcher 
Select a workspace 


Eclipse Platform stores your projects in a folder called a workspace. 
Choose a workspace folder to use for this session. 





Workspace: (TYIT 





Browse... 


DD Use this as the default and do not ask again 





ov  ENNE 
图 4-2 Eclipse 启动 以 后 的 工作 空间 设置 界面 





可 以 直接 采用 默认 的 设置 /home/hadoop/workspace, 单 击 OK 按钮 。 可 以 看 出 ,由 于 


当前 是 采用 hadoop 用 户 登录 了 Linux 系统 ,因此 ,默认 的 工作 空间 目录 位 于 hadoop 用 户 目 
录 /home/hadoop F. 


Eclipse 启动 以 后 ,会 呈现 如 图 4-3 所 示 的 界面 。 





EXE 
S (Rams) - " 





Sašou aN 78 
An outline is not 
available. 


(A: Problems @ Javadoc 1S Declaration (B console st 
No consoles to display at this time. 






































图 4-3 Eclipse 启动 后 进入 的 界面 


选择 File>New—>Java Project 命令 ,开始 创建 一 个 Java 工程 ,会 弹出 如 图 4-4. 所 示 的 
界面 。 


在 Project name 后 面 输入 工程 名 称 HDFSExample, 选 中 Use default location 复 选 框 ， 
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X 口 New Java Project 





Create a Java Project a 
Create a Java project in the workspace or in an external location. 


Project name: | HpFSExamplel J 








I Use default location 


Location: 


Browse. 
JRE 

O Usean execution environment JRE: OSGi/Minimum-1.2 

@ Use a project specific JRE: java-8-openjdk-amd64 å 

O Use default JRE (currently java-&-openjdk-amd64') Configure JREs... 


9 T T os | NN 


图 4-4 3E Java 工程 界面 








将 Java 工程 的 所 有 文件 都 保存 到 /home/hadoop/workspace/HDFSExample 目录 下 。 在 
JRE 选项 卡 中 ,可 以 选择 当前 的 Linux 系统 中 已 经 安装 好 的 JDK, 例 如 java-8-openjdk- 
amd64; 然 后 单 击 界面 底部 的 Next 按钮 ,进入 下 一 步 设 置 。 


4.3.2 为 项 目 添加 需要 用 到 的 JAR E 
进入 下 一 步 设置 以 后 ,会 弹出 如 图 4-5 所 示 的 界面 。 


X CJ New Java Project 





Java Settings T2 
Define the Java build settings. [— 
source Projects | mLibraries | Order and Export 

JARs and class folders on the build path: 


上 mà JRE System Library [java-8-openjdk-amd64] Add JARS... 


Add External JARS... 





Add Variable. 
Add Library... 
Add Class Folder... 


Add External Class Folder... 


© Em Next> n D 








图 4-5 添加 JAR 包 界面 
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需要 在 这 个 界面 中 加 载 该 Java 工程 所 需要 用 到 的 JAR 包 ,这 些 JAR 包 中 包含 了 可 以 
访问 HDFS 的 Java API。 这 些 JAR 包 都 位 于 Linux 系统 的 Hadoop 安装 目录 下 ,对 于 本 书 
而 言 ,就 是 在 /usr/local/hadoop/share/hadoop 目录 下 。 单 击 界面 中 的 Libraries 选项 卡 , 然 
后 单 击 界面 右 侧 的 Add External JARs 按钮 ,会 弹出 如 图 4-6 所 示 的 界面 。 


X O JARSelection 














Ø| (I | usr | locat | hadoop | share [hadoop| mapreduce | tib 

| 位 置 (R) 名 称 ^ 大 小 修改 日 其 | 
O 最 近 使用 的 hofs 2015 年 06 月 29 日 | 
全 hadoop *- httpfs 2015 年 06 月 29 日 | 
Ua su d: kms 2015 年 06 月 29 日 
国文 件 系统 (B mapreduce 2015 年 6 月 29 日 | 
局 文档 ii tools. 2015 年 06 月 29 日 | 
AER yan 2015400298 | 

BA 

Bon 
MJ | 
+- *jan*zip > " 
"o MEE 








图 4-6 JAR 包 选 择 界面 


在 该 界面 中 ,上 面 有 一 排 目 录 按 钮 ( 即 usr, local, hadoop, share, hadoop, mapreduce 和 
lib) , 当 单 击 某 个 目录 按钮 时 ,就 会 在 下 面 列 出 该 目录 的 内 容 。 

为 了 编写 一 个 能 够 与 HDFS 交互 的 Java 应 用 程序 ,一 般 需 要 向 Java 工程 中 添加 以 下 
JAR 包 : 

(1) /usr/local/hadoop/share/hadoop/common 目录 下 的 hadoop-common-2. 7. 1. jar 
和 haoop-nfs-2. 7. 1. jar。 

(2) /usr/local/hadoop/share/hadoop/common/lib 目录 下 的 所 有 JAR 包 。 

(3) /usr/local/hadoop/share/hadoop/hdfs 目录 下 的 haoop-hdfs-2. 7. 1. jar 和 haoop- 
hdfs-nfs-2. 7. 1. jar。 

(4) /usr/local/hadoop/share/hadoop/hdfs/lib 目录 下 的 所 有 JAR fu. 

例如 ,如 果 要 把 /usr/local/hadoop/share/hadoop/common 目录 下 的 hadoop-common- 
2. 7. 1. jar 和 haoop-nfs-2. 7. 1. jar 添加 到 当前 的 Java 工程 中 ,可 以 在 界面 中 单 击 目录 按钮 ， 
进入 到 common 目录 ;然后 界面 会 显示 出 common 目录 下 的 所 有 内 容 ( 见 图 4-7)。 

在 界面 中 单 击 选中 hadoop-common-2. 7. 1. jar 和 haoop-nfs-2. 7. 1. jar, 然 后 单 击 界面 
右 下 角 的 “确定 ”按钮 ,就 可 以 把 这 两 个 JAR 包 增 加 到 当前 Java 工程 中 ,出 现 的 界面 如 
图 4-8 所 示 。 

从 这 个 界面 中 可 以 看 出 ,hadoop-common-2. 7. 1. jar 和 haoop-nfs-2. 7. 1. jar 已 经 被 添 
加 到 当前 Java 工程 中 ;然后 按照 类 似 的 操作 方法 ,可 以 再 次 单 击 Add External JARs 按钮 ， 
把 剩余 的 其 他 JAR 包 都 添加 进来 。 需 要 注意 的 是 , 当 需 要 选中 某 个 目录 下 的 所 有 JAR f 
时 ,可 以 使 用 Ctrl 十 A 键 进行 全 选 操 作 。 全 部 添加 完毕 以 后 ,就 可 以 单 击 界面 右 下 角 的 
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X O JARSelection 


| iB usr | local | hadoop | share | hadoop | common 





d 














名 称 < 大 小 修改 日 期 
a jdirt 2015 年 06 月 29 日 
mi ib. 2015 年 06 月 29 日 
I sources 2015:£06H29H 
E templates 2015 年 06 月 29 日 
hadoop-common-2.7.1 jar 34MB ”2015 年 06 月 29 日 
B hadoop-common-2.7.1-testsjar 1.9MB ”2015 年 06 月 29 日 
È hadoop-nfs-2.7.1jar 159.5KB 2015 年 06 月 29 日 

n 

















图 4-7 选择 common 目录 下 的 JAR 包 


Java Settings ib 
Define the Java build settings. 


source WProjects | miLibraries | ^;Order and Export. 
JARs and class folders on the build path: 














> & hadoop-common-2.7.1,jar - /usr/local/hadoop/share/hadoop/c | Add JARS, | 

> & hadoopnfs-2.7.1jar-/usr/loca/hadoop/share/hadoop/commo E 
> mà JRE System Library [java-8-openjdk-amd64] 

.. Add Variable m] 

Add Library... ] 

Add Class Folder.. — | 


Add External Class Folder 








Q9 <Back Next> Cancel Finish 








图 4-8 完成 common 目录 下 JAR 包 添 加 后 的 界面 







Finish 按钮 ,完成 Java 工程 HDFSExample 的 创建 。 
4.3.3 编写 Java 应 用 程序 


下 面 编写 一 个 Java 应 用 程序 ,用 来 检测 HDFS 中 是 
否 存在 一 个 文件 。 

在 Eclipse 工作 界面 左 侧 的 Package Explorer 面板 中 
( 见 图 4-9) 找 到 刚才 创建 好 的 工程 名 称 HDFSExample, 然 
后 在 该 工程 名 称 上 右 击 ,在 弹出 的 菜单 中 选择 New—> 图 4-9 Package Explorer 面板 


— Ø File Edit Source Refacto 





*S HDFSExample 
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Class 命令 。 


在 该 界面 中 ,只 需要 在 Name 后 面 输入 新 建 的 Java 类 文件 的 名 称 ,这 里 采用 名 称 
HDFSFilelfExist, 其 他 都 可 以 采用 默认 设置 ;然后 单 击 界面 右 下 角 的 Finish 按钮 ,出 现 如 图 


New—> Class 命令 以 后 会 出 现 如 图 4-10 所 示 的 界面 。 

















Java class 
A The use of the default package is discouraged. e 
Source folder: [HDFSExample/src | Browse.. 
Package: [ (default) | Browse.. 
门 Enclosing type: Browse. 
Name: [HoFsFileifExist. 
Modifiers: @ public — C default private protected 
O abstract (7 final J static 

Superclass: [java.lang.Object |  Browse.. 
Interfaces: 

In |... Add... 





@ cre | D 


图 4-10 3r Java Class 界面 








4-11 所 示 的 界面 。 





EE TIE 5-9 
EERIE * * 


m 
5 


bs 





(I8 Package Explorer 只 





Y ie HDFSExample i 
vsrc 
Y iB (default package) 
» [DD HDFSFilelfExist.java 
» mà JRE System Library [java-8-openjdk-amd64] 
> mà Referenced Libraries 








区 Problems | @ Javadoc[B Declaration | console zz 
No consoles to display at this time. 

















writable 











图 4-11 新 建 一 个 类 文件 以 后 的 Eclipse 界面 
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可 以 看 出 ,Eclipse 自动 创建 了 一 个 名 为 HDFSFilelfExist. java 的 源 代码 文件 ,请 在 该 
文件 中 输入 以 下 代码 : 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
public class HDFSFileIfExist { 
public static void main(String[] args) { 
try{ 
String fileName= "test"; 
Configuration conf- new Configuration (); 
conf.set ("fs.defaultFS", "hdfs://localhost:9000"); 
conf.set ("fs.hdfs.impl", "org.apache.hadoop.hdfs. 
DistributedFileSystem"); 
FileSystem fs-FileSystem.get (conf); 
if(fs.exists (new Path (fileName)))( 
System.out.println ("文件 存在 "); 
Jelse{ 
System.out.println ("文件 不 存在 "); 
} 


}catch (Exception e){ 
e.printStackTrace(); 


) 


) 











上 述 代码 也 可 以 直接 从 本 书 官网 的 “下 载 专区 ”中 下 载 , 单 击 进 入 下 载 专区 后 ,在 “代码 ” 
这 个 文件 夹 中 ,找到 “第 4 章 ” 文 件 夹 , 把 该 文件 夹 下 的 HDFSFilelfExist. java 文件 下 载 到 
本 地 。 

该 程序 用 来 测试 HDFS 中 是 否 存在 一 个 文件 ,其 中 有 一 行 代码 : 





String fileName- "test" 











这 行 代码 给 出 了 需要 被 检测 的 文件 名 称 是 test, 没 有 给 出 路 径 全 称 , 表 示 是 采用 了 相对 
路 径 , 实 际 上 就 是 测试 当前 登录 Linux 系统 的 用 户 hadoop, 在 HDFS 中 对 应 的 用 户 目录 下 
是 否 存在 test 文件 ,也 就 是 测试 HDFS 中 的 /user/hadoop/ 目 录 下 是 否 存在 test 文件 。 


4.3.4 编译 运行 程序 


在 开始 编译 运行 程序 之 前 ,请 一 定 确保 Hadoop 已 经 启动 运行 ,如 果 还 没有 启动 ,需要 
打开 一 个 Linux 终端 ,输入 以 下 命令 启动 Hadoop: 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 
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现在 就 可 以 编译 运行 上 面 编写 的 代码 。 可 以 直接 单 击 Eclipse 工作 界面 上 部 的 运行 程 
序 的 快捷 按钮 , 当 把 鼠标 移动 到 该 按钮 上 时 ,在 弹出 的 菜单 中 选择 Run As ,继续 在 弹出 来 的 
菜单 中 选择 Java Application. ,如 图 4-12 所 示 。 








— E File Edit Source Refactor Navigate Search Project Run Window 


]*-0-9-]*]& e -]o 7 -]y 


1HDFSFilelfExist 


















1Java Applet Shift+Alt+XA 
d Run Configurations... 2 Java Application — Shift«Alt«X J 
Organize Favorites... 3 JUnit Test Shift«Alt«X T 





hiaan { 
图 4-12 运行 程序 界面 





然后 会 弹出 如 图 4-13 所 示 的 界面 。 


OD select Java Application 


Select type (? - any character, * - any String, TZ = TimeZone): - 





[HDFsFileifExist a 
Matching items: 


© HDFSFilelfExist - (default package) 








| 页 HDFSExample/bin - (default package) 











@ cn) 
4-13 Select Java Application 界面 

在 该 界面 中 需要 在 Select type 下 面 的 文本 框 中 输入 HDFSFilelfExist. Eclipse 就 会 自 

操作 中 的 Launch configuration 中 会 被 用 到 ) ;然后 单 击 界面 右 下 角 的 OK 按钮 ,开始 运行 程 


序 。 程 序 运 行 结束 后 ,会 在 底部 的 Console 面板 中 显示 运行 结果 信息 ( 见 图 4-14)。 由 于 目 
前 HDFS 的 /user/hadoop 目录 下 还 没有 test 文件 ,因此 ,程序 运行 结果 是 “文件 不 存在 ”。 




















Problems | @ Javadoc |) Declaration. m X x E 





«terminated» HDFSFilelfExist [Java Application] /usr/lib/jvm/java-8-openjdk-amd64/bin/java (2017-1-3 上 午 10:14:09) 





log4j:WARN No appenders could be found for logger (org.apache.hadcop.util.Shell) 
log4j:WARN Please initialize the log4j system properly. 

logaj :WARN see http://logging.apache.org/log4j/1.2/faq.htmienoconfig for more info. 
zeren] 








图 4-14 运行 结果 信息 
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同时 ,Console 面板 中 还 会 显示 一 些 类 似 “log4j:WARN…” 的 警告 信息 ,可 以 不 用 理会 。 


4.3.5 应 用 程序 的 部 署 


下 面 介绍 如 何 把 Java 应 用 程序 生成 JAR 包 , 部 署 到 Hadoop 平台 上 和 运行。 首先 ,在 
Hadoop 安装 目录 下 新 建 一 个 名 称 为 myapp 的 目录 ,用 来 存放 所 编写 的 Hadoop 应 用 程序 ， 
可 以 在 Linux 的 终端 中 执行 如 下 命令 : 





$cd /usr/local/hadoop 
$mkdir myapp 











然后 在 Eclipse 工作 界面 左 侧 的 Package Explorer 面板 中 ,在 工程 名 称 HDFSExample 
上 右 击 ,在 弹出 的 菜单 中 选择 Export, 如 图 4-15 所 示 。 





earch Project Run 


New je]? u 
Go Into 

Open in New Window fexistjava 2 

Open Type Hierarchy F4 


Showin Shift+altsw » B'9-aPache.hadoop. conf .C 
brg.apache.hadoop. fs.Fil 


: Copy Ctrl+C prg.apache.hadoop. fs. Pat! 
asr | Copy Qualified Name 


















了 由 (defaul paste Ctrl+V elass HDFSFilelfExist ( 
* 国 HDFS pelete Delete lic static void main(str 

" | 
» ara Buspa , CM fileName = 。 
| Source Shift+Alt+s » Configuration conf 
| Refactor ShiftsAlt«T » | conf.set("fs.defaul 
non conf.set("fs.hdfs.i, 






fe - Eil 





Eilocvetom 






Export. 
Refresh F5 





@ Javadoc 


HDFSFileifExist [Java Appli 






Close Project 
Assign Working Sets... No appenders could be fol 
[Please initialize the loj 
| Run As ' [See http://logging.apach 





Debug As 上 


图 4-15 导出 程序 


最 后 会 弹出 如 图 4-16 所 示 的 界面 。 

在 该 界面 中 选择 Runnable JAR file, 然 后 单 击 Next 按钮 ,弹出 如 图 4-17 所 示 的 界面 。 

在 该 界面 中 ,Launch configuration 用 于 设置 生成 的 JAR 包 被 部 署 启动 时 运行 的 主 类 ， 
需要 在 下 拉 列 表 中 选择 刚才 配置 的 类 HDFSFilelfExist-HDFSExample。 在 Export 
destination 中 需要 设置 JAR 包 要 输出 保存 到 哪个 目录 ,例如 ,这 里 设置 为 /usr/local/ 
hadoop/myapp/HDFSExample. jare E Library handling 下 面 选择 Extract required 
libraries into generated JAR ,然后 单 击 Finish 按钮 ,会 出 现 如 图 4-18 所 示 的 界面 。 

可 以 忽略 该 界面 的 提示 信息 ,直接 单 击 界面 右 下角 的 OK 按钮 ,启动 打包 过 程 。 打 包 过 
程 结束 后 ,会 出 现 一 个 警告 信息 界面 ,如 图 4-19 所 示 。 
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Select 


A 


Export allresources required to run an application into a JAR file onthe local filesystem. E= 


Select an export destination: 








filter tex «| 
> & General 
> & install 
 & Java 
«5 JARfile 
£ Javadoc 





> & Plug-in Development 
> & Run/Debug 
> & Team 


@ — J Finish 








图 4-16 导出 程序 时 选择 Runnable JAR file 


X O Runnable JAR File Export 
Runnable JAR File Specification 


Select a Java Application" launch configuration to use to create a runnable JAR. "v X 


Launch configuration: 





| HDFSFileifExist- HOFSExample 


Export destination: 


|[ustltocal/hadoop/myapp/HDFsExample jar - || Browse. | 


Library handling: 





@ [Extract required libraries into generated JAR 
Package required libraries into generated JAR 








O Copy required libraries into a sub-folder next to the generated JAR 


© <Back Next> oni D 


图 4-17 导出 程序 设置 界面 











X' Runnable JAR File Export 





o This operation repacks referenced libraries. 


Please review the licenses associated with libraries you wish to reference to make sure 
you are able to repack them using this application. Note also hat this operation does 
not copy signature files from original libraries to the generated JAR file. 











(Do not show this message again) 








图 4-18 提示 





息 
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RIO Runnable JAR File Export 


Q JARexport finished with warnings. See details for additional information. 


D S 





图 4-19 警告 信息 


可 以 忽略 该 界面 的 警告 信息 ,直接 单 击 界面 右 下 角 的 OK 按钮 。 至 此 ,已 经 顺利 把 
HDFSExample 工程 打包 生成 了 HDFSExample.jar。 可 以 到 Linux 系统 中 查看 一 下 生成 的 
HDFSExample. jar 文件 ,可 以 在 Linux 的 终端 中 执行 如 下 命令 : 





$cd /usr/local/hadoop/myapp 
$1s 





"f DAE SJ. /usr/local/hadoop/myapp 目录 下 已 经 存在 一 个 HDFSExample. jar 文件 。 
现在 ,就 可 以 在 Linux 系统 中 ,使 用 hadoop jar 命令 运行 程序 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hadoop jar ./myapp/HDFSExample.jar 











命令 执行 结束 后 ,会 在 屏幕 上 显示 执行 结果 “文件 不 存在 ”。 

至 此 ,检测 HDFS 文件 是 否 存在 的 程序 ,就 顺利 部 署 完成 了 。 本 书 在 教程 官网 的 “下 载 
专区 ”的 “代码 ”目录 的 "第 4 章 ? 子 目录 下 ,还 提供 了 另外 两 个 代码 文件 供 参考 , 即 
HDFSCreateFile. java 和 HDFSReadFile. java, 可 以 下 载 到 本 地 ,按照 上 述 介绍 的 方法 ,分 别 
BUS Java 程序 ,向 HDFS 写 人 一 个 文件 和 从 HDFS 中 读 取 一 个 文件 。 


4.4 本 章 小 结 


大 数据 时 代 必 须 解 决 海量 数据 的 高 效 存储 问题 ,为 此 ,谷歌 开发 了 分 布 式 文件 系统 
GFS ,通过 网 络 实现 文件 在 多 台 机 器 上 的 分 布 式 存储 , 较 好 地 满足 了 大 规模 数据 存储 的 需 
求 。HDFS 是 针对 GFS 的 开源 实现 , 它 是 Hadoop 两 大 核心 组 成 部 分 之 一 。 

在 很 多 情形 下 ,需要 使 用 Shell 命令 来 操作 HDFS, 因 此 ,本 章 介绍 了 HDFS 操作 常用 
的 Shell 命令 ,包括 目录 操作 命令 和 文件 操作 命令 等 。 同 时 ,还 介绍 了 如 何 利 用 HDFS 的 
Web 管理 界面 ,以 可 视 化 的 方式 查看 HDFS 的 相关 信息 。 最 后 ,本 章 详细 介绍 了 如 何 使 用 
Eclipse 开发 操作 HDFS 的 Java 应 用 程序 。 本 章 介绍 的 Eclipse 开发 方法 ,为 后 续 章 节 的 编 
程 开发 提供 了 很 好 的 借鉴 。 





HBase 的 安装 和 基础 编程 


HBase 是 一 个 高 可 靠 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 数据 库 , 是 谷歌 BigTable 的 开 
源 实 现 , 主 要 用 来 存储 非 结 构 化 和 半 结 构 化 的 松散 数据 。HBase 的 目标 是 处 理 非常 庞大 的 
表 , 可 以 通过 水 平 扩展 的 方式 ,利用 廉价 的 计算 机 集群 处 理由 超过 10 亿 行 数据 和 数 百 万 列 
元 素 组 成 的 数据 表 。Hadoop 安装 以 后 ,不 包含 H Base 组件 ,需要 另外 安装 。 

本 章 首先 介绍 HBase 的 安装 方法 ,并 介绍 HBase 的 两 种 不 同 模式 的 配置 方法 ,包括 单 
机 模式 和 伪 分 布 式 模式 ,然后 介绍 一 些 操作 HBase 的 常用 的 Shell 命令 ,最 后 ,介绍 如 何 使 
用 Eclipse 开发 可 以 操作 HBase 数据 库 的 Java 应 用 程序 。 


5.1 安装 HBase 


本 节 介绍 HBase 的 安装 方法 ,包括 下 载 安 装 文件 .配置 环境 变量 添加 用 户 权限 等 。 
5.1.1 下 载 安装 文件 


HBase 是 Hadoop 生态 系统 中 的 一 个 组 件 , 但 是 , Hadoop 安装 以 后 ,本 身 并 不 包含 
HBase, 因 此 ,需要 单独 安装 HBase。 登 录 Linux 系统 ,在 Linux 系统 (不 是 Windows 系统 ) 
中 打开 火狐 浏览 器 ,访问 本 书 官网 的 “下 载 专 区 ”, 在 “软件 ”目录 下 下 载 HBase 安装 文件 
hbase-1. 1. 5-bin. tar. gz。 火 狐 浏览 器 会 默认 把 下 载 文件 都 保存 到 当前 用 户 的 下 载 目 录 , 由 
于 本 书 全 部 采用 hadoop 用 户 登 录 Linux 系统 ,所 以 ,hbase-1. 1. 5-bin. tar. gz 文件 会 被 保存 
到 /home/hadoop/ 下 载 /目录 下 。 

需要 注意 的 是 ,如 果 是 在 Windows 系统 下 面 下 载 安 装 文件 hbase-1. 1. 5-bin. tar. gz, 则 
需要 通过 FTP 软件 上 传 到 Linux 系统 的 “/home/hadoop/ 下 载 /” 目 录 下 ,这 个 目录 是 本 书 
所 有 安装 文件 的 中 转 站 。 

下 载 完 安装 文件 以 后 ,需要 对 文件 进行 解压 。 按 照 Linux 系统 使 用 的 默认 规范 ,用户 安 
装 的 软件 一 般 都 是 存放 在 /usr/local/ 目 录 下 。 使 用 hadoop 用 户 登 录 Linux 系统 ,打开 一 个 
终端 ,执行 如 下 命令 : 





$sudo tar -zxf ~/ 下 载 /hbase-1.1.5-bin.tar.gz -C /usr/local 











将 解压 的 文件 名 hbase-1. 1. 5 改 为 hbase, 以 方便 使 用 ,命令 如 下 : 
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$sudo mv /usr/local/hbase-1.1.5 /usr/local/hbase 











5.1.2 配置 环境 变量 


将 HBase 安装 目录 下 的 bin 目录 ( 即 /usr/local/hbase/bin) 添 加 到 系统 的 PATH 环境 
变量 中 ,这 样 ,每 次 启动 HBase 时 就 不 需要 到 /usr/local/hbase 目录 下 执行 启动 命令 ,方便 
HBase 的 使 用 。 使 用 vim 编辑 器 打开 一 /. bashrc 文件 ,命令 如 下 : 





$vim ~/.bashrc 











打开 . bashrc 文件 以 后 ,可 以 看 到 ,已 经 存在 如 下 所 示 的 PATH 环境 变量 的 配置 信息 ， 
因为 ,之 前 在 第 3 章 安装 配置 Hadoop 时 ,已 经 为 Hadoop 添加 了 PATH 环境 变量 的 配置 
信息 : 








export PATH= $PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin 








这 里 需要 把 HBase 的 bin H 3&/usr/local/hbase/bin 追加 到 PATH 中 。 当 要 在 PATH 
中 继续 加 入 新 的 路 径 时 ,只 要 用 英文 冒号 *:" 隔 开 , 把 新 的 路 径 加 到 后 面 即 可 ,追加 后 的 结果 
WF: 





export PATH= $PATH: /usr/local/hadoop/sbin:/usr/local/hadoop/bin:/usr/ 
local/hbase/bin 





添加 后 执行 如 下 命令 使 设置 生效 : 





$source ~/.bashrc 











5.1.3 添加 用 户 权 限 


需要 为 当前 登录 Linux 系统 的 hadoop 用 户 添 加 访问 HBase 目录 的 权限 ,将 HBase 安 
装 目 录 下 的 所 有 文件 的 所 有 者 改 为 hadoop, 命 令 如 下 : 





$cd /usr/local 
$sudo chown -R hadoop ./hbase 











5.1.4 查看 HBase 版 本 信息 
可 以 通过 如 下 命令 查看 HBase 版 本 信息 .以 确认 HBase 已 经 安装 成 功 : 








$/usr/local/hbase/bin/hbase version 
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[nain] util onInfo: Compiled by ndimiduk on 


] util.VersionInfo: From source with checksum 7 





5.2 HBase 的 配置 


HBase 有 3 种 运行 模式 , 即 单机 模式 、 伪 分 布 式 模 式 和 分 布 式 模式 。 

(1) 单机 模式 : 采用 本 地 文件 系统 存储 数据 。 

(2) 伪 分 布 式 模式 : 采用 伪 分 布 式 模式 的 HDFS 存储 数据 。 

(3) 分 布 式 模 式 : 采用 分 布 式 模式 的 HDFS 存储 数据 。 

本 书 仅 介绍 单机 模式 和 伪 分 布 式 模式 。 

在 进行 HBase 配置 之 前 ,需要 确认 已 经 安装 了 3 个 组 件 : JDK Hadoop, SSH, HBase 
单机 模式 不 需要 安装 Hadoop, 伪 分 布 式 模式 和 分 布 式 模式 需要 安装 Hadoop。JDK、 
Hadoop 和 SSH 的 安装 方法 ,已 经 在 第 3 章 中 做 了 详细 介绍 ,如 果 已 经 按照 第 3 章 的 方法 安 
装 了 Hadoop, 则 这 里 不 需要 另外 安装 JDK、Hadoop 和 SSH。 


5.2.1 单机 模式 配置 


1 配置 hbbaseenvsh 文件 








使 用 vim 编辑 器 打开 /usr/local/hbase/conf/hbase-env. sh ,命令 如 下 : 





$vim /usr/local/hbase/conf/hbase- env.sh 











打开 hbase-env. sh 文件 以 后 ,需要 在 hbase-env. sh 文件 中 配置 JAVA 环境 变量 ,在 第 
3 章 中 已 经 配置 了 JAVA HOME — /usr/lib/jvm/java-7-openjdk-amd64 , 3X Œ np pA H Hz 4z 
制 该 配置 信息 到 hbase-env. sh 文件 中 。 此 外 ,还 需要 添加 Zookeeper 配置 信息 ,配置 
HBASE MANAGES ZK 为 true. KR h HBase 自己 管理 Zookeeper, 不 需要 单独 的 
Zookeeper, H F hbase-env. sh 文件 中 本 来 就 存在 这 些 变量 的 配置 ,因此 ,只 需要 删除 前 面 
的 注释 符号 # 并 修改 配置 内 容 即 可 ,修改 后 的 hbase-env. sh 文件 应 该 包含 如 下 两 行 信息 : 












export JAVA HOME- /usr/lib/jwn/java- 7- openjdk- amd64 








export HBASE MANAGES ZK-true 





修改 完成 以 后 ,保存 hbase-env. sh 文件 并 退出 vim 编辑 器 。 
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2. 配置 hbase-sitexml 文 件 


使 用 vim 编辑 器 打开 并 编辑 /usr/local/hbase/conf/hbase-site. xml 文件 ,命令 如 下 : 





$vim /usr/local/hbase/conf/hbase- site.xml 











在 hbase-site. xml 文件 中 ,需要 设置 属性 hbase. rootdir, 用 于 指定 H Base 数据 的 存储 
位 置 ,如 果 没 有 设置 , 则 hbase. rootdir 默认 为 /tmp/hbase-$ (user. name) ,这 意味 着 每 次 
启 系统 都 会 丢失 数据 。 这 里 把 hbase. rootdir 设置 为 HBase 安装 目录 下 的 hbase-tmp 文件 
夹 , 即 /usr/local/hbase/hbase-tmp, 修 改 后 的 hbase-site. xml 文件 中 的 配置 信息 如 下 : 











«configuration» 
«property» 
«name» hbase.rootdir« /name> 
« value» file:///usr/local/hbase/hbase- tmp< /value» 
« /property» 


< /configuration» 











保存 hbase-site. xml 文件 ,并 退出 vim 编辑 器 。 
3. 启动 并 运行 HBase 


现在 就 可 以 测试 运行 HBase, 命 令 如 下 : 





$cd /usr/local/hbase 
$bin/start- hbase.sh # 启 动 HBase 
$bin/hbase shell # 进 入 HBase Shell 命令 行 模 式 











进入 HBase Shell 命令 行 模式 以 后 ,用 户 可 以 通过 输入 Shell 命令 操作 HBase 数据 库 。 
成 功 启动 HBase 后 会 出 现 如 图 5-2 所 示 的 界面 。 





图 5-2 进入 HBase Shell 模式 


最 后 可 以 使 用 如 下 命令 停止 HBase 运行 : 





$bin/stop- hbase.sh 
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需要 说 明 的 是 ,如 果 在 操作 HBase 的 过 程 中 发 生 错 误 , 可 以 查看 {HBASE_HOME}) 目 
录 ( 即 /usr/local/hbase) 下 的 logs 子 目录 中 的 日 志文 件 ,来 寻找 可 能 的 错误 原因 ,然后 搜索 
网 络 资料 寻找 相关 解决 方案 。 


5.2.2 伪 分 布 式 配置 
1 配置 hhaseenvsh 文件 
使 用 vim 编辑 器 打开 /usr/local/hbase/conf/hbase-env. sh ,命令 如 下 : 





$vim /usr/local/hbase/conf/hbase- env.sh 











打开 hbase-env. sh 文件 以 后 ,需要 在 hbase-env. sh 文件 中 配置 JAVA. HOME, 
HBASE CLASSPATH 和 HBASE_MANAGES_ZK。 其 中 ,HBASE_CLASSPATH 设置 
为 本 机 Hadoop 安装 目录 下 的 conf. 目录 ( 即 /usr/local/hadoop/conf)。JAVA_HOME 和 
HBASE_MANAGES_ZK 的 配置 方法 和 上 面 单机 模式 的 配置 方法 相同 。 修 改 后 的 hbase- 
env. sh 文件 应 该 包含 如 下 3 行 信息 : 





export JAVA HOME- /usr/lib/jvm/java- 7- openjdk- amd64 
export HBASE CLASSPATH- /usr/local/hadoop/conf 
export HBASE MANAGES ZK-true 











修改 完成 以 后 ,保存 hbase-env. sh 文件 并 退出 vim 编辑 器 。 
2 配置 hbbasesitexml 文件 
使 用 vim 编辑 器 打开 并 编辑 /usr/local/hbase/conf/hbase-site. xml 文件 ,命令 如 下 : 





$vim /usr/local/hbase/conf/hbase- site.xml 











在 hbase-site, xml 文件 中 ,需要 设置 属性 hbase. rootdir, 用 于 指定 HBase 数据 的 存储 
位 置 。 在 HBase 伪 分 布 式 模式 中 ,使 用 伪 分 布 式 模式 的 HDFS 存储 数据 ,因此 ,需要 把 
hbase. rootdir 设置 为 HBase 在 HDFS 上 的 存储 路 径 。 根 据 第 3 章 Hadoop 伪 分 布 式 模式 
的 配置 可 以 知道 , HDFS 的 访问 路 径 为 hdfs://localhost: 9000/, 因 为 ,这 里 设置 hbase. 
rootdir 为 hdfs://localhost:9000/hbase。 此 外 ,由 于 采用 了 伪 分 布 式 模式 ,因此 ,还 需要 将 
属性 hbase. cluter. distributed 设置 为 true。 修 改 后 的 hbase-site. xml 文件 中 的 配置 信息 
如 下 : 





«configuration» 
«property» 
«name» hbase.rootdir« /name> 
«value» hdfs: //1ocalhost:9000/hbase« /value» 
< /property» 





«property» 
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«name» hbase.cluster.distributed« /name> 
«value» true< /value» 
< /property» 


< /configuration» 











保存 hbase-site. xml 文件 ,并 退出 vim 编辑 器 。 
3. 启动 运行 HBase 


首先 登录 SSH ,由 于 之 前 在 第 3 章 中 已 经 设置 了 无 密码 登录 ,因此 这 里 不 需要 密码 ; 然 
后 切换 至 /usr/local/hadoop ,启动 Hadoop, 让 HDFS 进入 运行 状态 ,从 而 可 以 为 HBase ff 
储 数 据 ,具体 命令 如 下 : 





$ssh localhost 
$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 











输入 命令 jps, 如 果 能 够 看 到 NameNode, DataNode 和 SecondaryNameNode iX 3 个 进 
程 , 则 表示 已 经 成 功 启动 Hadoop, 
然后 启动 HBase, 命 令 如 下 : 





$cd /usr/local/hbase 
$bin/start- hbase.sh 





输入 命令 jps, 如 果 出 现 以 下 进程 , 则 说 明 HBase 启动 成 功 : 





Jps 

HMaster 
HQuorumPeer 
NameNode 
HRegionServer 
SecondaryNameNode 
DataNode 





现在 就 可 以 进入 HBase Shell 模式 ,命令 如 下 : 











$bin/hbaseshell # 进 入 HBase shell 命令 行 模式 





进入 HBase Shell 命令 行 模 式 以 后 ,用 户 可 以 通过 输入 Shell 命令 操作 HBase 数据 库 。 
4 停止 运行 HBase 


最 后 可 以 使 用 如 下 命令 停止 HBase 运行 : 
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Sbin/stop-hbase.sh 








如 果 在 操作 HBase 的 过 程 中 发 生 错 误 ,可 以 查看 {HBASE_HOME} 目 录 ( 即 /usr/ 
ocal/hbase) 下 的 logs 子 目 录 中 的 日 志文 件 ,来 寻找 可 能 的 错误 原因 。 
关闭 HBase 以 后 ,如 果 不 再 使 用 Hadoop ,就 可 以 运行 如 下 命令 关闭 Hadoop: 





$cd /usr/local/hadoop 
$./sbin/stop-dfs.sh 











最 后 需要 注意 的 是 ,启动 关闭 Hadoop 和 HBase 的 顺序 一 定 是 : 启动 Hadoop 一 启动 
HBase— XH] HBase—2&H] Hadoop. 


5.3 HBase 常用 Shell 命令 


在 使 用 具体 的 Shell 命令 操作 HBase 数据 之 前 ,需要 首先 启动 Hadoop, 然 后 再 启动 
HBase 和 HBase Shell, 进 入 Shell 命令 提示 符 状态 ,具体 命令 如 下 : 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 
$cd /usr/local/hbase 
$./bin/start- hbase.sh 
$./bin/hbase shell 











5.3.1 在 HBase 中 创建 表 


假设 这 里 要 创建 一 个 表 student, 该 表 包 含 Sname, Ssex, Sage, Sdept, course 等 字段 。 
需要 注意 的 是 ,在 关系 型 数据 库 ( 如 MySQL) 中 ,需要 首先 创建 数据 库 , 然 后 再 创建 表 , 但 
是 ,在 HBase 数据 库 中 ,不 需要 创建 数据 库 ,只 要 直接 创建 表 就 可 以 。 在 HBase 中 创建 
student 表 的 Shell 命令 如 下 : 








hbase> create 'student', 'Sname', 'Ssex', 'Sage', 'Sdept', 'course' 








对 于 HBase 而 言 ,在 创建 HBasae 表 时 ,不 需要 自行 创建 行 键 ,系统 会 默认 一 个 属性 作 
为 行 键 ,通常 是 把 put 命令 操作 中 跟 在 表 名 后 的 第 一 个 数据 作为 行 键 。 

创建 完 student 表 后 ,可 通过 describe 命令 查看 student 表 的 基本 信息 。describe 命令 
及 其 执行 结果 如 图 5-3 所 示 。 

可 以 使 用 list 命令 查看 当前 HBase 数据 库 中 已 经 创建 了 哪些 表 , 命 令 如 下 : 











hbase> list 
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hbase(main):009:0> describe 'student' 
ENABLED 
DATA_BLO CODING => 'NONE', BLOOMFILTER 'NON true 
VERS oe ', MIN_VER: 
147483647' ，KEEP_DELETED C 
f ENCODE. ON DISK 


, {NAME 
ICATION_SCOPE => 


65536 
, {NAME 


B o 
, KEEP DELETED CEL 
ENCODE 


NC 
VERSIONS 'o', TTL 
KEEP_DELETED_ s 3LO > '65536', IN_MEMORY 
, {NAME = 
REPLICATION_SCOP 


IN MEMORY 





图 5-3 describe 命令 执行 结果 


5.3.2 添加 数据 


HBase 使 用 put 命令 添加 数据 ,一 次 只 能 为 一 个 表 的 一 行 数据 的 一 个 列 (也 就 是 一 个 单 
元 格 , 单 元 格 是 HBase 中 的 概念 ) 添 加 一 个 数据 ,所 以 ,直接 用 Shell 命令 插入 数据 效率 很 
低 , 在 用 中 ,一般 都 是 利用 编程 操作 数据 。 因 为 这 里 只 要 插入 一 条 学 生 记录 ,所 以 ,可 
以 用 Shell 命令 手工 插入 数据 ,命令 如 下 : 








hbase> put 'student', '95001', 'Sname', 'LiYing' 





上 面 的 put 命令 会 为 student 表 添 加 学 号 为 95001'、 名 字 为 "LiYing' 的 一 个 单元 格 数据 ， 
其 行 键 为 95001 ,也 就 是 说 ,系统 默认 把 跟 在 表 名 student 后 面 的 第 一 个 数据 作为 行 键 。 
下 面 继续 添加 4 个 单元 格 的 数据 ,用 来 记录 LiYing 同学 的 相关 信息 ,命令 如 下 : 











hbase» put 'student', '95001', 'Ssex', 'male" 
hbase» put 'student', '95001', 'Sage' , '22' 
hbase» put 'student', '95001', 'Sdept' , 'CS' 
hbase» put 'student', '95001', 'course:math', '80* 











5.3.3 查看 数据 


HBase 中 有 两 个 用 于 查看 数据 的 命令 。 

(1) get 命令 : 用 于 查看 表 的 某 一 个 单元 格 数据 。 

(2) scan 命令 : 用 于 查看 某 个 表 的 全 部 数据 。 

例如 ,可 以 使 用 如 下 命令 返回 student 表 中 95001 行 的 数据 : 




















hbase» get 'student', '95001' 











上 述 命令 的 执行 结果 如 图 5-4 所 示 o 


hbase(main):024:0> get 'studen 


course:math 
5 row(s) in 0.0080 seconds 


图 5-4 
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t','95001' 
CELL 
timestamp=1442912525676, 
timestamp=1442912586483, 


timestamp=1442912495442, 
timestamp=1442912510852, 
timestamp=1442912802499, 


value-male 
value=80 


get 命令 的 执行 结果 


下 面 使 用 scan 命令 查询 student 表 的 全 部 数据 : 





hbase» scan 'student' 











上 面 scan 命令 的 执行 结果 如 图 5-5 f 


'student' 


DE 


COLUMN«CELL 


column 
column 
column: 
column 
column: 


95001 
EE 
95001 
95661 





timestamp-1442912525676, value-20 
timestamp=1442912586483, valu: 
timestamp-1442912495442, valu: 
timestamp=1442912510852, 
math, time 


iYing 
value=male 
amp=1442912802499, value=80 


图 5-5 scan 命令 的 执行 结果 


5.3.4 删除 数据 


在 HBase 中 用 delete 以 及 deleteall 命令 进行 删除 数据 


AN 





: ,两 者 的 区 别 是 : delete f 


令 用 于 删除 一 个 单元 格 数据 ,是 put 的 反 向 操作 ;而 deleteall 命令 用 于 删除 一 行 数据 。 


首先 使 用 delete 命令 删除 student 表 


中 95001 这 行 中 的 Ssex 列 的 所 有 数据 ,命令 如 下 : 





hbase» delete 'student','95001','Ssex' 











上 面 的 delete 命令 的 执行 结果 如 图 5-6 所 示 


hbase(main):026 
© row(s) in 0.00 


delet 
seconds 


"stud 


hbase(main):027:0» 
[COLUMN 

Sage: 

Sdept: 

Snam' 

course:math 

4 row(s) in 0.0120 


get 'student 


seconds 





e 95001','S 


, '95001' 

CELL 
timestamp=1442912525676, 
timestamp=1442912586483, 
timestam 442912495442, 
ttmestam 442912802499, 


value=20 
value=CS 
value=LiYing 


图 5-6 delete 命令 的 执行 结果 


从 中 可 以 看 出 ,95001 这 行 中 的 Ssex 
然后 使 用 deleteall 命令 删除 student 





列 的 所 有 数据 已 经 被 删除 。 
表 中 的 95001 行 的 全 部 数据 ,命令 如 下 : 
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hbase»deleteall 'student','95001' 








5.3.5 删除 表 


删除 表 需 要 分 两 步 操作 : 第 一 步 先 让 该 表 不 可 用 ;第 二 步 删 除 表 。 例如 ,要 删除 
student 表 , 可 以 使 用 如 下 命令 : 





hbase> disable 'student' 
hbase» drop 'student' 











5.3.6 查询 历史 数据 


在 添加 数据 时 ,HBase 会 自动 为 添加 的 数据 添加 一 个 时 间 戳 。 在 修改 数据 时 , HBase 
会 为 修改 后 的 数据 生成 一 个 新 的 版 本 (时 间 戳 ), 从 而 完成 “ 改 ? 操 作 , 旧 的 版 本 依旧 保留 ， 
系统 会 定时 回收 垃圾 数据 ,只 留 下 最 新 的 几 个 版 本 ,保存 的 版 本 数 可 以 在 创建 表 的 时 候 
指定 

为 了 查询 历史 数据 ,这 里 创建 一 个 teacher 表 , 在 创建 表 的 时 候 ,需要 指定 保存 的 版 本 
数 (假设 指定 为 5) ,命令 如 下 : 





hbase» create 'teacher', (NAME- » 'username',VERSIONS- » 5} 











然后 插入 数据 ,并 更 新 数据 ,使 其 产生 历史 版 本 数据 ,需要 注意 的 是 ,这 里 插入 数据 和 更 
新 数据 都 是 使 用 put 命令 ,具体 如 下 : 





hbase» put 'teacher','91001', 'username', 'Mary' 

hbase» put 'teacher','91001', 'username', 'Maryl' 
hbase» put 'teacher','91001', 'username', 'Mary2' 
hbase» put 'teacher','91001','username', 'Mary3" 
hbase» put 'teacher','91001', 'username', 'Mary4' 
hbase» put 'teacher','91001', 'username', 'Mary5' 











查询 时 默认 情况 下 会 显示 当前 最 新 版 本 的 数据 ,如 果 要 查询 历史 数据 ,需要 指定 查询 的 
历史 版 本 数 ,由 于 上 面 设置 了 保存 版 本 数 为 5, 所 以 ,在 查询 时 指定 的 历史 版 本 数 的 有 效 取 
值 为 1 到 5, 具体 命令 如 下 : 





hbase> get 'teacher', '91001', {COLUMN= > 'username' , VERSIONS- > 5) 
hbase> get 'teacher', '91001', {COLUMN= > 'username', VERSIONS= > 3) 











述 命令 执行 后 的 结果 如 图 5-7 所 示 。 
5.3.7 退出 HBase 数据 库 
最 后 退出 数据 库 操作 ,输入 exit 命令 即 可 退出 ,命令 如 下 : 
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teacher' ,'91661 


in 0.0310 se 





图 5-7 get 命令 的 执行 结果 





hbase» exit 











注意 : 这 里 退出 HBase 数据 库 是 退出 HBase Shell ,而 不 是 停止 HBase 数据 库 后 台 运 
行 , 执 行 exit 后 ,HBase 仍然 在 后 台 运 行 ,如果 要 停止 HBase 运行 ,需要 使 用 如 下 命令 : 









$bin/stop- hbase.sh 





5.4 HBase 编程 实践 


HBase 提供 了 Java API 对 HBase 数据 库 进 行 操作 。 本 书 采用 Eclipse 进行 程序 开发 ， 
第 4 章 已 经 详细 介绍 了 Eclipse 软件 的 安装 方法 ,这 里 不 再 袭 述 。 在 进行 HBase 编程 之 前 ， 
如 果 还 没有 启动 Hadoop 和 HBase, 需 要 首先 启动 Hadoop 和 HBase, 但 是 ,不 需要 启动 
HBase Shell, 具 体 命令 如 下 : 








$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 
$cd /usr/local/hbase 
$./bin/start- hbase.sh 











5.4.1 在 Eclipse 中 创建 项 目 


Eclipse 启动 以 后 ,会 弹出 如 图 5-8 所 示 的 界面 ,提示 设置 工作 空间 (workspace) 。 

可 以 直接 采用 默认 的 设置 /home/hadoop/workspace, 单 击 OK 按钮 。 可 以 看 出 ,由 于 
当前 是 采用 hadoop 用 户 登录 了 Linux 系统 ,因此 ,默认 的 工作 空间 目录 位 于 hadoop 用 户 目 
录 /home/hadoop 下 。 

Eclipse 启动 以 后 ,呈现 的 界面 如 图 5-9 所 示 。 

可 以 看 到 ,Eclipse 里 已 经 存在 一 个 名 称 为 HDFSExample 的 工程 ,这 是 介绍 第 4 章 时 
创建 的 Java 工程 。 为 了 减少 不 必要 的 干扰 .这 里 可 以 删除 这 个 工程 ,如 图 5-10 Bros ,在 工 
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X' Workspace Launcher 
Select a workspace 


Eclipse Platform stores your projects in a folder called a workspace. 
Choose a workspace folder to use for this session. 








Workspace: (TIISIN M Browse... 





OD Usethis as the default and do not ask again 
























B) HDFSFilefExistjava BN 





* import org.apacho. hadoop. conf. Configuration;| 
HALE public class HOFSFIle]fEXISt ( 
public static void main(Stringl] ergs)t 
try{ 
String fileNane = "test"; 
Configuration conf = new Contiguration(); 
conf sett" fs.defautFS", "hdfs://Locathost:9609"); 
conf .set(*fa.hdfs.inpl*, "org.apache.hadoop.hdfs.DistributedrileSysten"); 
FileSyston fs = FileSyston.get(conf); 
if(fs.existsinew Path(fiLeNane) )){ 
Systen.out.printta (XH) 1 
Jetset 





It: Problems | @ Javadoc [i Declaration [E] console zt 
No consoles to display at this time. 




















图 5-9 Eclipse 启动 进入 以 后 的 界面 


程 名 称 HDFSExample 上 右 击 ,在 弹出 的 快捷 菜单 中 选择 Delete, 

单 击 Delete 选项 以 后 ,会 弹出 如 图 5-11 所 示 的 界面 。 

在 这 个 界面 中 ,如 果 选 中 Delete project contents on disk(cannot be undone) 复 选 框 , 则 
会 删除 整个 HDFSExample 工程 及 其 代码 。 如 果 没 有 选中 这 个 选项 , 则 工程 代码 依旧 保存 
在 磁盘 上 ,以 后 可 以 继续 加 载 到 Eclipse 中 。 这 里 不 选中 这 个 选项 ,然后 单 击 OK 按钮 ,删除 
HDFSExample 工程 。 

然后 选择 File>New—> Java Project 命令 ,开始 创建 一 个 Java 工程 ,弹出 如 图 5-12 所 示 
的 界面 。 

在 Project name 后 面 的 文本 框 中 输入 工程 名 称 HBaseExample, 选 中 Use default location 
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te Search Project Run 





M. Configuration. 





Show In ShifteAltew. » 

Copy cric Eq 

Copy Qualified Name [Stringi] args)t 
Paste Ctrlsv 


Delete Bgg- test: 


5nf = new Configuration() 








Build Path ' Fauttrs*, "hdfs://localho 
Source Shift*AlSS * E. impl", -org.apache.hadi 
Refactor Shift+Alt+T * | FileSystem.get (conf); 
Import... W Path(fileName))){ 
pu 9rintln(" 文 件 存在 "); 
Refresh 

Close Project 

Assign Working Sets... 

RunAs 

Debug As 





图 5-10 删除 Java 工程 


X O Delete Resources 


o Areyou sure you wantto remove project 'HOFSExample' from the workspace? 





[M [Delete project contents on disk (cannot be undone) | 





Project location: 


/home/hadoop/workspace/HDFSExample 


meo | NN o) 


图 5-11 删除 Java 工程 时 的 提示 信息 














X Dl New Java Project 


Create a Java Project. D 


Create a Java project in the workspace or in an external location. [a 





Project name: |HBase£xamplel 











E Use default location 


Location: Jhome/hadoop pace] Browse. 
JRE 
(C) usean execution environment JRE: OSGi/Minimum-1.2 一 
图 use a project specific JRE: jave-8openjdk-amd64 ^ 


O Use default JRE (currently 'java-8-openjdk-amd64') Configure JREs.... 


Q9 <Bad | Next- coc | NEN 
图 5-12 为 HBase 应 用 程序 新 建 一 个 Java 工程 
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复 选 框 ,让 Java 工程 的 所 有 文件 都 保存 到 /home/hadoop/workspace/ HBaseExample 目录 
下 。 在 JRE 选项 卡 中 ,可 以 选择 当前 的 Linux 系统 中 已 经 安装 好 的 JDK, 如 java-8-openjdk- 
amd64。 然 后 单 击 界面 底部 的 Next 按钮 ,进入 下 一 步 设置 。 


5.4.2 为 项 目 添加 需要 用 到 的 JAR E 
进入 下 一 步 的 设置 以 后 ,会 弹出 如 图 5-13 所 示 的 界面 。 


RIO New Java Project 





Java Settings cde 


[source | Projects | miLibraries | &;Order and Export. 
JARs and class folders on the build path: 





[> mà JRE System Library [java-8-openjdk-amd64] Add JARS... 


Add External JARS... 


j 

J 

Add variable.. — | 

| Add library... ] 
J 


Add Class Folder... 


[Add External class Folder... | 


@ E Not» ove | NEN 


图 5-13 添加 JAR 包 界 面 








为 了 编写 一 个 能 够 与 HBase 交互 的 Java 应 用 程序 ,需要 在 这 个 界面 中 加 载 该 Java 工 
程 所 需要 用 到 的 JAR 包 , 这 些 JAR 包 中 包含 了 可 以 访问 HBase 的 Java API。 这 些 JAR 包 
都 位 于 Linux 系统 的 HBase 安装 目录 的 lib 目录 下 ,也 就 是 位 于 /usr/local/hbase/lib 目录 
下 。 单 击 界面 中 的 Libraries 选项 卡 , 然 后 单 击 界面 右 侧 的 Add External JARs 按钮 ,弹出 
如 图 5-14 所 示 界 面 。 





X D) JARSelection 


[5] |E usr | locat [hbase (u) 





maw (am * 大 小 RAM 
|Q 搜索 dairy 2016 年 05 月 09 日 
|O 最 近 使 用 的 mm x 

(ft hadoop. 

sm 

| 回 文件 系统 apacheds-it 

Bz apacheds kerberos codec 2.0.0.M15 jar 

|^ apizasn t-api-1.0.0-M20 jar 16.6KB 

aa apiutt T 799kB 

GEG sm3.1ja sok 

+ T& NOCET: 303.1KB 











5-14 选择 需要 的 JAR 包 
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选中 /usr/local/hbase/lib 目录 下 的 所 有 JAR 包 ( 但 是 ,不 要 选中 ruby 文件 夹 ) ,然后 单 


击 界面 右 下 角 的 “确定 ”按钮 。 


添加 完毕 以 后 ,就 可 以 单 击 界面 右 下 角 的 Finish 按钮 ,完成 Java 工程 HBaseExample 


的 创建 。 
5.4.3 编写 Java 应 用 程序 


下 面 编写 一 个 Java 应 用 程序 ,对 HBase 数据 库 进 行 操作 。 
在 Eclipse 工作 界面 左 侧 的 Package Explorer 面板 中 ( 见 图 5-15) 找 到 刚才 创建 好 的 工 
程 名 称 HBaseExample, 然 后 在 该 工程 名 称 上 右 击 ,在 弹出 的 菜单 中 选择 New 一 Class 命令 。 















IB IE 
局 | Golnto 
| Open in New Window 
Open Type Hierarchy F4 
C $ shown Shift+Alt+w » 
Copy ctrisc 
Copy Qualified Name 
Paste CtrloV. 
Delete Delete 
Build Path D 
Source Shift+Alt+s » 
Refactor Shift«alt«T v 
Import... 
Export... 





图 5-15 新 建 Java Class 文件 








Java Project 
Project... 





Package 


Interface 

Enum 
Annotation 
Source Folder 
Java Working Set 
Folder 

File 

Untitled Text File 
JUnit Test Case 


Other... Ctri«N 








选择 New 一 Class 命令 以 后 会 出 现 如 图 5-16 所 示 的 界面 。 


X 口 New Java Class 


Java Class 


A The use of the default package is discouraged. 





9 

















Source folder: [HBaseExample/src | Browse... 
Package: [ (default) | Browse... 
C Enclosing type: Browse. 
Name: [heaseoperation J 
Modifiers: Q public O default @ private @ protected 

O abstract O final static 
Superclass: [java.lang.Object || Browse. | 
Interfaces: Add... 


@ ce] D 








图 5-16 新 建 Java Class 文件 时 的 设置 界面 
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在 该 界面 中 只 需要 在 Name 后 面 的 文本 框 中 输入 新 建 的 Java 类 文件 的 名 称 , 这 里 采用 
名 称 HBaseOperation ,其 他 都 可 以 采用 默认 设置 ;然后 单 击 界面 右 下 角 的 Finish 按钮 ,出 现 
如 图 5-17 所 示 的 界面 。 







a Window Help 











EEA EAEE T 





H Package Explorer 31 poem o| [) 
v © HBaseExample 
src 
v & (default package) 
> [jj HBaseOperation.java 
* mà JRE System Library [java-8-openjdk-amd64] 
> gà Referenced Libraries 












public class HBaseOperation ( 


) 





图 5-17 新 建 一 个 类 文件 以 后 的 Eclipse 界面 


可 以 看 出 ,Eclipse 自动 创建 了 一 个 名 为 HBaseOperation. java 的 源 代码 文件 ,在 该 文件 
中 输入 以 下 代码 : 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.* ; 
import org.apache.hadoop.hbase.client.* ; 
import java.io.IOException; 
public class HBaseOperation( 
public static Configuration configuration; 
public static Connection connection; 
public static Admin admin; 
public static void main (String[] args)throws IOException( 
createTable ("t2",new String[]("cf1l","cf2"]); 





insertRow ("t 
getData ("t2", "rwl", "Cfl", "g1"); 
//deleteTable("t2"); // 如 果 不 想 执 行 本 行 代码 ,可 以 注释 掉 本 行 代码 


"rwl", "cfl", "gl", "vall"); 


} 
// 建 立 连 接 
public static void init()í 
configuration- HBaseConfiguration.create(); 
configuration.set ("hbase.rootdir", "hdfs://localhost:9000/hbase"); 
try{ 
connection=ConnectionFactory.createConnection (configuration); 
admin- connection.getAdmin (); 
catch (IOException e)í 
e.printStackTrace(); 
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// 关 闭 连接 
public static void close(){ 
try{ 
if (admin !=null){ 
admin.close (); 
E: 
if (null != connection){ 
connection.close(); 
} 
}catch (IOException e) { 
e.printStackTrace(); 


) 
// 建 立 表 
public static void createTable (String myTableName,String[] colFamily) 
throws IOException ( 
init(); 
TableName tableName- TableName.valueOf (myTableName); 
if (admin.tableExists (tableName))( 
System.out.println("talbe is exists!"); 
Jelse ( 
HIBbleDescriptor hTBbleDescriptor- new HTBbleDescriptor (tableName); 
for(String str:colFamily)( 
HColumnDescriptor hColumnDescriptor- new HColumnDescriptor (str); 
hTableDescriptor.addFamily (hColumnDescriptor); 
} 
admin.createTable (hTableDescriptor); 
I 
close(); 
) 
// 删 除 表 
public static void deleteTable (String tableName) throws IOException { 
init(; 
TableName tn- TableName.valueOf (tableName) ; 
if (admin.tableExists (tn)) { 
admin.disableTable (tn) ; 
admin.deleteTable (tn) ; 
E 
close(); 
} 
// 查 看 已 有 表 


public static void listTables() throws IOException { 
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init(; 
HTableDescriptor hTableDescriptors[]- admin.listTables(); 
for (HTableDescriptor hTableDescriptor :hTableDescriptors)( 
System.out.println (hTableDescriptor.getNameAsString|()); 
i 
close(); 
) 
public static void insertRow (String tableName, String rowKey, String 
colFamily,String col,String val) throws IOException { 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Put put- new Put (rowKey.getBytes()); 
put.addColumn (colFamily.getBytes (), col.getBytes(), val.getBytes () ) ; 
table.put (put) ; 
table.close(); 
close(); 
} 
// 删 除数 据 
public static void deleteRow (String tableName, String rowKey, String 
colFamily, String col) throws IOException { 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Delete delete- new Delete (rowKey.getBytes()); 
// 删 除 指定 列 族 
//delete.addFamily (Bytes .toBytes (colFamily)); 
// 删 除 指定 列 
//delete.addColumn (Bytes .toBytes (colFamily),Bytes.toBytes (col)); 
table.delete (delete); 
table.close(); 
close(); 
d 
// 根 据 rowkey 查 找 数据 
public static void getData (String tableName,String rowKey,String 
colFamily,String col)throws IOExceptioní 
init(; 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Get get-new Get (rowKey.getBytes () ) ; 
get .addColumn (colFamily.getBytes () ,col.getBytes ()); 
Result result-table.get (get) ; 
showCell (result); 
table.close(); 


close(); 
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// 格 式 化 输出 
public static void showCell (Result result){ 
Cell[] cells-result.rawCells(); 
for(Cell cell:cells)( 
System.out.println ("RowName:"* new String(CellUtil.cloneRow 
(cel1))+ ""); 
System.out.println("Timetamp:"*cell.getTimestamp ()* ""); 
System.out.println ("column Family:"+ new String(CellUtil. 
cloneFamily (cell))-*""); 
System.out.println ("row Name:"+ new String(CellUtil. 
cloneQualifier (cell))-* ""); 
System.out.println ("value:"+new String(CellUtil.cloneValue 
(ce11)) "m; 











上 述 代 码 可 以 从 本 书 官 网 的 “下 载 专 区 ”中 下 载 , 单 击 进入 下 载 专区 后 ,在 “代码 ”这 个 文 
件 夹 中 ,找到 第 5 章 文 件 夹 下 的 HBaseOperation. java 文件 下 载 到 本 地 。 在 上 述 代码 中 ,用 
来 删除 表 的 语句 deleteTable("t2") 被 注释 掉 了 ,如 果 要 使 用 该 行 代码 ,可 以 把 注释 去 掉 , 但 
是 ,为 了 顺利 演示 下 面 内 容 , 请 暂时 注释 掉 该 行 代码 。 

上 述 代 码 输入 到 HBaseOperation. java 中 以 后 ,Eclipse 可 能 会 显示 一 些 错误 信息 ,如 
图 5-18 所 示 。 


System.out.println("talbe is exists!"); 
Jelse { 
i Ne = new HTableDescriptor(tableName); 
ts Sc level 


olumnD o scriptor(str); 
hTableDesc ETE addFamily 

} 

adnin.createTable(hTableDescriptor); 
) 


close(); 





E Problems | @ Javadoc |® Declaration E) console 2 
|No consoles to display at this time. 


图 5-18 Eclipse 提示 的 代码 错误 信息 














可 以 看 出 ,图 5-18 中 显示 的 错误 如 下 : 





Syntax error, 'for each' statements are only available if source level is 1.5 or greater 











之 所 以 出 现 这 个 错误 ,是 因为 HBaseOperation. java 代码 中 的 一 些 语句 的 语法 (如 for 
(String str:colFamily)) ,是 在 JDK 1.5 以 上 版 本 才 支 持 的 ,JDK 1.4 以 及 之 前 的 版 本 不 支 


i21 
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持 这 些 语法 。 
现在 可 以 查看 一 下 Linux 系统 中 安装 的 Eclipse 的 相关 设置 ,如 图 5-19 所 示 ,在 顶部 菜 
单 中 选择 Project, 在 弹出 的 子 菜单 中 选择 Properties. 


X — File Edit Source Refactor Navigate Search Project Run Window Help 
|i-gael*-0o-« 


EET ESOR 





[ia Package Explorer 2t 


Y © HBaseExample 
src 
Y tB (default package) 
» [Ù HBaseOperation.java 
> BÀ JRE System Library [java-8-openjdk-amd64] 


Properties 
> gà Referenced Libraries - 











图 5-19 Eclipse 菜单 
然后 会 弹出 如 图 5-20 所 示 的 界面 。 


X LJ Properties for HBaseExample 


| 国 |  JavaCompiler . =~ 


> 
Pasourga E Enable project specific settings Configure Worksp 





Builders 
Java Build Path JDK Compliance 
* Java Code Style Use con from execution environment on the Java Build Path 
kl Compiler compliance level: »[14 : 
* JavaEditor \ 
Javadoc Location Ig Use default compliance settings 
Project References Generated files compatibility: 12 
Refactoring History 
Run/Debug Settings Source compatibility 13 
Disallow identifiers called 'assert warning 
Disallow identifiers called enum warning 


Classfile Generation 
Ig Add variable attributes to generated class files (used by the debugger) 
Il Add line number attributes to generated class files (used by the debugger) 


@ ox. NE 
图 5-20 属性 设置 界面 


在 该 界面 中 单 击 左 侧 栏目 的 Java Compiler. 在 右边 出 现 的 信息 中 可 以 看 出 ,Compiler 
compliance level 当前 默认 的 设置 为 1. 4, 不 支持 HBaseOperation. java 代码 中 的 一 些 语句 
的 语法 (如 for(CString str:colFamily)) 。 

为 了 解决 这 个 错误 ,如 图 5-21 n , 单 击 错误 提示 图 标 , 在 弹出 的 对 话 框 中 ,在 Change 
project compliance and JRE to 1. 5 这 行文 字 上 双击 ,就 可 以 让 错误 信息 消失 。 
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Systemvout.printtnlvtatbe is existsi*); 
Jelse ( 


HTableDescriptor hTableDescriptor = new HTebleDescriptor(tableNane); 





) 
单 击 这 里 aai 
E 


close); 


lt: Problems | @ Javade 


No consoles to display 











图 5-21 错误 解决 方法 


5.4.4 编译 运行 程序 


再 次 强调 ,在 开始 编译 运行 程序 之 前 ,一 定 要 确保 Hadoop 和 HBase 已 经 启动 运行 。 
现在 就 可 以 编译 运行 上 面 编写 的 代码 。 可 以 直接 单 击 Eclipse 工作 界面 上 部 的 运行 程序 的 
快捷 按钮 , 当 把 鼠标 移动 到 该 按钮 上 时 ,在 弹出 的 菜单 中 选择 Run as 一 Java Application fir 
令 , 如 图 5-22 所 示 。 


Jri &|*-0-9-|]*j]Je& e-]* *-]v(.su m 
EEA EE Qr 1HBaseOperation 


H8 Package Explorer HN OE i d 1Java Application lives | 


a Run Configurations... " 
Y 12 HBaseExample Organize Favorites... org.apache.hadoop. conf .Configuratid 
vasre 








图 5-22 ”运行 程序 


程序 运行 结束 后 ,结果 如 图 5-23 所 示 , Console 面板 中 还 会 显示 一 些 类 似 “log4j: 
WARN…” 的 警告 信息 ,可 以 不 用 理会 


er roe etre [gi EEE 


terminated» HBaseOperation [Java Application] /usr/lib/jvm/java-8-openjdk-amd64/bin/java (2017-1-9 E 11:08:42) 
[Log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory) 
log4j:WARN Please initialize the log4j system properly. 

log4j :WARN See http://logging.apache.org/l0g4j/1.2/faq.htmlénoconfig for more info. 

RowName  rw1 

Timetamp: 1483931329387 

column Family:cf1 

row Name:ql 

value:vali 














图 5-23 控制 台中 输出 的 程序 运行 结果 信息 


现在 可 以 在 Linux 的 终端 中 启动 HBase Shell, 来 查看 生成 的 tl 表 , 启 动 HBase Shell 
的 命令 如 下 : 





$cd /usr/local/hbase 
$./bin/hbase shell 
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进入 HBase Shell 以 后 ,可 以 使 用 list 命令 查看 HBase 数据 库 中 是 否 存 在 名 称 为 tl 
的 表 。 





hbase> list 





然后 可 以 使 用 get 命令 查询 刚才 插入 到 t2 中 的 一 行 数据 : 





hbase»get 't2','rwl' 











最 后 如 果 要 重复 调试 H BaseOperation. java 代码 , 则 需要 删除 H Base 中 已 经 创建 的 表 
t2, 可 以 使 用 Shell 命令 删除 t2 ,命令 如 下 : 








hbase> disable 't2' 
hbase> drop 't2' 











5.4.5 应 用 程序 的 部 署 


可 以 把 上 面 编写 的 Java 应 用 程序 打包 后 部 署 到 Hadoop 平台 上 和 运行。 具体 部 署 方法 
和 第 4 章 中 介绍 的 应 用 程序 部 署 方法 一 样 ,这 里 不 再 歼 述 。 


5.5 本 章 小 结 


HBase 属于 列 族 数 据 库 ,是 NoSQL 数据 库 的 一 种 , 它 是 Hadoop 生态 系统 中 的 重要 一 
JA ,借助 于 Hadoop 的 力量 ,HBase 获得 很 好 的 发 展 空间 ,得 到 了 大 量 的 应 用 。 

本 章 首 先 介绍 HBase 的 安装 方法 ,包括 下 载 安装 文件 .配置 环境 变量 和 添加 用 户 权限 
等 ;然后 详细 介绍 HBase 的 两 种 不 同 模式 的 配置 方法 ,包括 单机 模式 的 配置 和 伪 分 布 式 模 
式 的 配置 。 在 实际 应 用 中 ,需要 经 常 使 用 Shell 命令 操作 HBase 数据 库 , 因 此 ,本 章 详细 介 
绍 了 一 些 常 用 的 HBase Shell 命令 的 使 用 方法 ,包括 创建 表 、 添 加 数据 查看 数据 、 删 除数 据 
等 ;最 后 本 章 详细 介绍 HBase 的 Java 应 用 程序 开发 方法 。 


p 
典型 NoSQL 数据 库 的 安装 和 使 用 


NoSQL 数据 库 是 一 大 类 非 关系 型 数据 库 的 统称 , 较 好 地 满足 了 大 数据 时 代 不 同类 型 数 
据 的 存储 需求 ,开始 得 到 越 来 越 广泛 的 应 用 。NoSQL 数据 库 主 要 包括 键 值 数据 库 、 列 族 数 
据 库 文档 数据 库 和 图 数据 库 4 种 类 型 ,不 同 产品 都 有 各 自 的 应 用 场合 。 

本 童 重点 介绍 键 值 数 据 库 Redis 和 文档 数据 库 MongoDB 的 安装 和 使 用 方法 ,并 给 出 
简单 的 编程 实例 。 


6.1 Redis 安装 和 使 用 


本 节 内 容 包 括 Redis 简介 .安装 Redis 和 Redis 实例 演示 等 。 
6.1.1 Redis 简介 


Redis 是 一 个 键 值 (key-value) 存 储 系统 , 即 键 值 对 非 关 系 型 数据 库 , 和 Memcached 类 
似 , 目 前 正在 被 越 来 越 多 的 互联 网 公司 采用 。Redis 作为 一 个 高 性 能 的 键 值 数据 库 ,不 仅 在 
很 大 程度 上 弥补 了 memcached 这 类 键 值 存储 的 不 足 , 而 且 在 部 分 场合 下 可 以 对 关系 数据 库 
起 到 很 好 的 补充 作用 。Redis 提供 了 Python、Ruby、Erlang、PHP 客户 端 ,使 用 很 方便 。 

Redis 支持 存储 的 值 (value) 类 型 包括 string FIER) V list HER), set EAA zset( 有 
序 集合 ) 。 这 些 数据 类 型 都 支持 push/pop、add/remove 以 及 取 交 集 、 并 集 和 差 集 等 丰富 的 
操作 ,而 且 这 些 操 作 都 是 原子 性 的 。 在 此 基础 上 ,Redis 支持 各 种 不 同方 式 的 排序 。 与 
memcached 一 样 ,为 了 保证 效率 ,Redis 中 的 数据 都 是 缓存 在 内 存 中 的 , 它 会 周期 性 地 把 更 
新 的 数据 写 入 磁盘 ,或 者 把 修改 操作 写 入 追加 的 记录 文件 ;此 外 , Redis 还 实现 了 主 从 
(master-slave) 同 步 。 


6.1.2 安装 Redis 


首先 登录 Linux 系统 (本 书 全 部 统一 使 用 hadoop 用 户 登 录 ) ,打开 浏 览 器 ,访问 Redis 
官网 (https://redis. io/) 下 载 安装 包 redis-3. 2. 7. tar. gz, 或 者 访问 本 书 官网 的 “下 载 专 区 ”， 
到 “软件 ”目录 下 把 redis-3. 2. 7. tar. gz 文件 下 载 到 本 地 。 下 载 后 的 redis-3. 2. 7. tar. gz X 
TF ,保存 在 /home/hadoop/ 下 载 目 录 下 。 然 后 ,打开 一 个 终端 ,执行 以 下 命令 将 Redis 解压 
至 /usr/local/ 目 录 下 并 重 命名 : 
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$cd~ 


$cd /usr/local 


$sudo mv ./redis- 3.2.7 ./redis 





$sudo tar -zxvf ./ F $ /redis-3.2.7.tar.gz -C 


/usr/local 





然后 执行 如 下 命令 把 redis 目录 的 权限 赋予 


F hadoop 用 户 : 





$sudo chown -R hadoop:hadoop ./redis 





接 下 来 进入 /usr/local/redis 


目录 ,输入 以 下 外 


ir A VERIS Redis: 





$sudo make 


$sudo make install 





至 此 ,Redis 已 经 


安装 完成 ,现在 可 以 执行 如 下 命令 开启 Redis 服务 器 : 





$cd /usr/local/redis 


$./src/redis- server 








如 果 有 如 图 6-1 所 示 的 输 


charles@char les-Aspire-4741:~/redis-3.2 /src/ 
15176:C 08 Feb 16:19:54.816 # Warning: 
to specify a config file use ./src/redis 





config 
rver /path 


.818 * Increased naximum nunber of open fil 


WARNING: The 
t to the Lowe! 
arted, Red 


low memory condition 
connand = meno 
WARNING you have Transp 
eate latency and memory u 
/kernel/mn/trai 
tting after 
819 * The server 


图 6-1 Redis 服务 器 启 


然后 再 新 建 一 个 终端 ,输入 如 下 命令 启 


P backlog 
value of 12 


则 表示 安装 成 功 。 


d, using the default config. In order 
Conf 


to 10032 (it was originally set 


0600000/0) 64 bit 


ting of 511 cannot be enforced because /pr 


ve may fail under 
l.conf and then 


Background 
to Jetc/sys: 
to take effect. 
ges (THP) support enabled 
To fix this issue run tl 
root, and add it to your 
restarted after THP is disabl 


in your 


now ready to accept connections on port 6379 





后 的 屏幕 信息 


动 Redis 客户 端 : 





$cd /usr/local/redis 
$./src/redis- cli 








如 图 6-2 所 示 ,客户 端 连 上 服务 器 之 后 ， 


会 显示 “127. 





0. 0. 1:6379 








的 命令 提示 符 信 
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息 ,表示 服务 器 的 IP 地 址 为 127. 0.0.1, 端 口号 为 6379。 现 在 可 以 执行 简单 的 操作 ,例如 ， 
mo hello" , ffi Jj "world" ,并 且 取 出 键 为 "hello" 时 对 应 的 值 ,图 6-2 给 出 了 具体 的 操作 


.0.0.1:6379» get hello 
rid 
27.0.0.1:6379» | 


图 6-2 客户 端 连接 上 服务 器 后 的 简单 操作 





至 此 ,Redis 安装 和 运行 成 功 , 接 下 来 , 即 可 操作 Redis 数据 库 。 
6.1.3 Redis 实例 演示 
假设 有 3 个 表 , 即 Student、Course 和 SC,3 个 表 的 字段 ( 列 ) 和 数据 如 图 6-3 所 示 。 





(a) Student 表 (b) Course 表 (c) SC 表 
图 6-3 3 个 表 的 字段 和 数据 


Redis 数据 库 是 以 二 key,value 的 形式 存储 数据 ,把 3 个 表 的 数据 存 和 人 Redis 数据 库 
时 ,key 和 value 的 确定 方法 如 下 : 
key 王 表 名 :主键 值 : 列 名 
value= ži] (fi 
例如 ,把 每 个 表 的 第 一 行 记 录 保 存 到 Redis 数据 中 ,需要 执行 的 命令 和 执行 结果 如 图 6-4 
所 示 。 


2.75 ./src/redis-cli 





OK 
127.6.6,1:6379> | 


图 6-4 向 Redis 中 插入 数据 


可 以 执行 类 似 的 命令 ,把 3 个 表 中 的 所 有 数据 都 插入 到 Redis 数据 库 中 。 然 后 针对 这 
些 已 经 录入 的 数据 ,下 面 将 简单 演示 如 何 进 行 增 、 删 . 改 、 查 操作 。Redis 支持 5 种 数据 类 
型 ,不同 数 据 类 型 , 增 \ 删 \ 改 、 查 可 能 不 同 ,这 里 用 最 简单 的 数据 类 型 字符 串 作 为 演示 。 


1 插入 数据 




















向 Redis 插入 一 条 数据 ,只 需要 先 设计 好 key 和 value, 然 后 用 set 命令 插入 数据 即 可 。 
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例如 ,在 Course 表 中 插入 一 门 新 的 课程 “算法 ”,4 学 分 ,操作 命令 和 结果 如 图 6-5 所 示 。 





127.0.0.1:6379> set Course:8:Cname 异 法 


:0.1:6379> set Course credit 4 





图 6-5 插入 数据 


2 修改 数据 


Redis 并 没有 修改 数据 的 命令 ,所 以 ,如 果 在 Redis 中 修改 一 条 数据 ,只 能 采用 一 种 变通 
的 方式 , 即 在 使 用 sex 命令 时 ,使 用 同样 的 key, 然 后 用 新 的 value 值 来 覆盖 旧 的 数据 。 例 
如 ,把 刚才 新 添加 的 “算法 ”课程 名 称 修改 为 “编译 原理 ”, 操 作 命 令 和 结果 如 图 6-6 所 示 。 





US 0.0.1:6379> get Course:8:Cname 


127. 0.0.1:6379> set Course:8:Cname 


0.0.1:6379> get Course:8:Cname 





图 6-6 ”修改 数据 


3. 删除 数据 


Redis 有 专门 删除 数据 的 命令 一 一 del 命令 ,命令 格式 为 “del 键 "。 所 以 ,如 果 要 删除 之 
前 新 增 的 课程 “编译 原理 ”, 只 需 输入 命令 “del Course:8:Cname”, 如 图 6-7 所 示 。 当 输入 
"del Course:8:Cname” 时 ,返回 1, 说 明成 功 删除 一 条 数据 ; 当 再 次 输入 get 命令 时 ,输出 为 
空 ,说明 删除 成 功 . 





127.0.0.1:6379> get Cou 


127.0.0.1:6379> del Cou 


27.0.0.1:6379> get Cou 





:0.0.1:6379> 


图 6-7 删除 数据 


4 查询 数据 


Redis 最 简单 的 查询 方式 是 使 用 get 命令 ,上 面 几 个 操作 中 都 已 经 使 用 过 get 命令 ,这 
ERHI. 


6.2 MongoDB 的 安装 和 使 用 





本 节 介 绍 MongoDB 的 安装 和 使 用 方法 ,包括 安装 Mongo、 使 用 Shell 命令 操作 
MongoDB 以 及 Java API 编程 实例 等 。 
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6.2.1 MongDB 简介 


MongoDB 是 一 个 基于 分 布 式 文件 存储 的 文档 数据 库 , 介 于 关系 数据 库 和 非 关 系数 据 
库 之 间 , 是 非 关 系数 据 库 当中 功能 最 丰富 、 最 像 关系 数据 库 的 一 种 NoSQL 数据 库 。 
MongoDB 支持 的 数据 结构 非常 松散 ,是 类 似 json 的 bson 格式 ,因此 可 以 存储 比较 复杂 的 数据 
类 型 。Mongo 最 大 的 特点 是 支持 的 查询 语言 非常 强大 ,语法 有 点 类 似 于 面向 对 象 的 查询 语言 ， 
几乎 可 以 实现 类 似 关 系数 据 库 单 表 查询 的 绝 大 部 分 功能 ,而 且 还 支持 对 数据 建立 索引 。 
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6.2.2 安装 MongoDB 


MongoDB 既 可 以 安装 在 Windows 系统 下 使 用 ,也 可 以 安装 在 Linux 系统 下 使 用 ,这 里 
采用 Linux 系统 。MongoDB 的 安装 很 简单 ,无 须 下 载 源 文件 ,可 以 直接 用 apt-get 命令 进行 
但 是 ,需要 说 明 的 是 ,如 果 直 接 使 用 sudo apt-get install mongodb 命令 进行 安装 ,默认 
安装 的 版 本 是 MongoDB 2. 6. 10。 由 于 目前 MongoDB 已 经 升级 到 3. 2. 8, 这 里 将 通过 添加 
软件 源 的 方式 来 安装 3. 2. 8 版 本 。 

首先 在 Linux 系统 中 打开 一 个 终端 ,执行 如 下 命令 导入 公共 密 钥 到 包 管 理 器 中 








$sudo apt- key adv - - keyserver hkp://keyserver.ubuntu.com:80 -- recv EA312927 





然后 创建 MongoDB 的 文件 列表 ,命令 如 下 : 





$echo "deb http://repo.mongodb.org/apt/ubuntu trusty/mongodb- org/3.2 


multiverse" | sudo tee /etc/apt/sources.list.d/mongodb- org-3.2.1ist 





执行 如 下 命令 来 更 新 包 管理 器 : 





$sudo apt- get update 





最 后 执行 如 下 命令 安装 MongoDB: 





$sudo apt-get install - y mongodb- org 





安装 完成 后 ,在 终端 输入 以 下 命令 查看 MongoDB 版 本 : 





Smongo -version 











如 果 能 够 输出 版 本 信息 ( 见 图 6-8) , 则 表明 安装 成 功 。 





图 6-8 查询 MongoDB 版 本 信息 
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安装 成 功 以 后 ,启动 MongoDB 的 命令 如 下 : 





$sudo service mongodb start 











默认 设置 下 ,MongoDB 是 随 Ubuntu 启动 而 自动 启动 的 。 可 以 输入 以 下 命令 查看 是 否 
启动 成 功 : 





$pgrep mongo - 1 # 注 意 :-1 是 英文 字母 1, 不 是 阿拉 伯 数 字 1 











如 果 能 够 出 现 如 图 6-9 所 示 的 信息 , 则 表明 启动 成 功 。 






图 6-9 查询 MongoDB 是 否 启 动 成 功 


使 用 MongoDB 结束 后 ,关闭 MongoDB 的 命令 如 下 : 





$sudo service mongodb stop 





6.2.3 使 用 Shell 命令 操作 MongoDB 


1. 进入 MongoDB Shell 模式 





在 Linux 系统 打开 一 个 终端 ,输入 如 下 命令 启动 MongoDB: 





$sudo service mongodb start 





再 输入 如 下 命令 进入 MongoDB Shell 模式 : 





Smongo 











执行 该 命令 后 ,屏幕 截图 如 图 6-10 所 示 


dblab@ubunt 
MongoDB 


/kernel 


s 'alw 
6 I CONTROL * We suggest se 


4.614«0800 I CONTROL f[initandli 
gepage/defrag is 'always'. 

= 614«0800 I CONTROL [initandlisten] ** 
tting it to ' 
2017-02-13T11 4.614«0800 I CONTROL f[initandlisten] 





图 6-10 MongoDB Shell 模式 
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进入 MongoDB Shell 模式 以 后 ,默认 连接 的 数据 库 是 test 数据 库 , 可 以 在 命令 提示 符 
“二 ”后 面 输入 各 种 Shell 命令 来 操作 MongoDB 数据 库 。 


2 常用 操作 命令 


常用 的 操作 MongoDB 数据 库 的 相关 命令 包括 如 下 。 

(1) show dbs: 显 示 数 据 库 列表 。 

(2) show collections: 显示 当前 数据 库 中 的 集合 (类 似 于 关系 数据 库 中 的 表 table). 

(3) show users: 显示 所 有 用 户 。 

(4) use yourDB; 切换 当前 数据 库 至 yourDB。 

(5) db. helpO ; 显示 数据 库 操作 命令 。 

(6) db. yourCollection. helpO ; 显示 集合 操作 命令 ,yourCollection 是 集合 名 

MongoDB 没有 创建 数据 库 的 命令 ,如 果 要 创建 一 个 名 称 为 School 的 数据 库 , 需 要 先 运 
fT use School 命令 ,之 后 做 一 些 操作 ,例如 ,使 用 命令 db. createCollection('teacher') 创 建 集 
合 ,这 样 就 可 以 创建 一 个 名 称 为 School 的 数据 库 , 执 行 上 述 命 令 过 程 的 屏幕 截图 如 图 6-11 
所 示 。 





图 6-11 创建 数据 库 和 集合 


3. 简单 操作 演示 

下 面 以 一 个 School 数据 库 为 例 进行 操作 演示 ,将 在 School 数据 库 中 创建 两 个 集合 
teacher 和 student, 并 对 student 集合 中 的 数据 进行 增 、 删 \ 改 、 查 等 基本 操作 。 需 要 说 明 的 
是 ,文档 数据 库 中 的 集合 (Collection) 相 当 于 关系 型 数据 库 中 的 表 (table) 。 

1) 切换 到 School 数据 库 


命令 如 下 : 














»use School 

















注意 : MongoDB 无 须 预 创 建 School 数据 库 ,在 使 用 时 会 自动 创建 。 


2) 创建 集合 
创建 集合 CCollection) 的 命令 如 下 : 
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> db.createCollection ('teacher') 











执行 上 述 命令 的 屏幕 截图 如 图 6-12 所 示 。 





图 6-12 创建 集合 
实际 上 ,MongoDB 在 插入 数据 的 时 候 , 也 会 自动 创建 对 应 的 集合 ,无 须 预 定义 集合 。 


3) 插入 数据 
与 数据 库 创建 类 似 , 插 入 数据 时 也 会 自动 创建 集合 。 插 入 数据 有 两 种 方式 : insert 和 


save, 具 体 命令 如 下 : 





>db.student .insert ({_id:1, sname: 'zhangsan', sage: 20}) # id 可 选 


»db.student.save(( id:l, sname: 'zhangsan', sage: 22}) * id 可 选 








这 两 种 方式 ,其 插入 的 数据 中 _id 字段 均 可 不 写 , 系 统 会 自动 生成 一 个 唯一 的 _id 来 标 
识 本 条 数据 。insert 和 save 两 者 的 区 别 在 于 : 在 手动 插入 _id 字段 时 ,如 果 _id 已 经 存在 ， 
insert 不 做 操作 ,而 save 会 做 更 新 操作 ;如 果 不 加 _id 字段 ,两 者 作用 相同 ,都 是 插入 数据 。 
上 述 命令 执行 过 程 的 屏幕 截图 如 图 6-13 所 示 


: 'zhangsan', sage: 


"nMatched 
find() 


errmsg tDocument :: cause 1000 E11000 du 
plicate key error index: School.student.S id ^ dup 1.0 }" 
H 





sname” : "zhangsan", "sage" :|22 ) 


图 6-13 插入 数据 


添加 的 数据 的 结构 是 松散 的 ,只 要 是 bson 格式 均 可 , 列 属性 均 不 固定 ,以 实际 添加 的 数 
据 为 准 。 可 以 先 定义 数据 再 插入 ,这样 就 可 以 一 次 性 插入 多 条 数据 ,如 图 6-14 所 示 。 

运行 完 以 上 例子 , student 已 自动 创建 ,这 也 说 明 MongoDB 不 需要 预先 定义 集合 
-次 插入 数据 后 ,集合 会 被 自动 创建 。 此 时 ,可 以 使 用 show collections 命 
前 已 经 存在 的 集合 ,如 图 6-15 所 示 。 











(collection) ,在 


令 查询 数据 库 中 
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chenliu' 


zhang: 
b3alda 


图 6-14 一 次 性 插入 多 条 数据 


how collections 
tudent 
tnde. 





图 6-15 show collections 命令 的 执行 结 


4) 查找 数据 
查找 数据 所 使 用 的 基本 命令 格式 如 下 : 








»db.youCollection.find(criteria, filterDisplay) 








其 中 ,criteria 


示 指 定 某 些 列 的 数据 ,这 也 是 一 个 可 选 的 参数 ,但 是 ,需要 
个 参数 不 可 省 略 , 若 查 询 条 件 为 空 ,可 用 {} 作 为 占 位 


表示 查询 条 件 ,是 一 个 可 选 的 参 





显示 部 分 数据 ,如 显 
, 当 存在 该 参数 时 ,第 








(1) 查询 所 有 记录 。 








>db.student.find() 








该 命令 相当 于 关系 数据 库 的 SQL 语句 select * from student。 
(2) 查询 sname 一 Tisi 的 记录 。 








»db.student.find((sname: 'lisi']) 











目 当 于 关系 数据 库 的 SQL 语句 select * from student where sname- lisi 
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G) 查询 指定 列 sname、sage 数据 。 





»db.student.find((), (sname:1, sage:1}) 











该 命令 相当 于 关系 数据 库 的 SQL 语句 select sname.sage from student, Hp ‚sname: 
1 表示 返回 sname 列 , 默 认 _id 字段 也 是 返回 的 ,可 以 添加 _id:0( 意 为 不 返回 _id) ,写成 
{sname: 1，sage: 1，id:0} ,就 不 会 返回 默认 的 _id 字段 了 。 

(4) AND 条 件 查询 。 














>db.student.find({sname:'zhangsan'，sage: 22]) 








该 命令 相当 于 关系 数据 库 的 SQL 语句 select * from student where sname 一 Zhangsan 
"and sage 一 22。 
(5) OR 条 件 查询 。 





»db.student.find(($or: [{sage: 22), (sage: 25}]}) 











命令 相当 于 关系 数据 库 的 SQL 语句 select * from student where sage— 22 or sage— 25, 
C6) 格式 化 输出 。 
对 于 查询 结果 ,也 可 以 采用 pretty() 进 行 格式 化 输出 ,命令 执行 结果 如 图 6-16 所 示 。 


> db.student.find() 





图 6-16 格式 化 输出 


5) 修改 数据 
修改 数据 的 基本 命令 格式 如 下 : 








>db.youCollection.update (criteria, objNew, upsert, multi) 








对 于 该 命令 做 如 下 说 明 。 

(1) criteria: 表示 update 的 查询 条 件 ,类似 sql update 查询 内 where 后 面 的 条 件 。 

(2) objNew : update 的 对 象 和 一 些 更 新 的 操作 符 ( 如 $ set) 等 ,也 可 以 理解 为 SQL 语 
句 中 的 update 语句 中 的 set 后 面 的 内 容 。 

(3) upsert :如 果 不 存 在 update 的 记录 ,是 否 插入 objNew, true 表示 插入 ,默认 是 
false, 表 示 不 插入 。 

(4) multi; MongoDB 默认 是 false, 只 更 新 找到 的 第 一 条 记录 ,如 果 这 个 参数 为 true, 就 
会 把 按 条 件 查 出 来 的 多 条 记录 全 部 更 新 。 默 认 是 false, 只 修改 匹配 到 的 第 一 条 数据 。 
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上 面 各 个 参数 中 ,criteria 和 objNew 是 必 选 参数 ,upsert 和 multi 是 可 选 参数 。 
这 里 给 出 一 个 实例 ,语句 如 下 : 





>db.student .update ({sname: 'lisi'}, ($set: (sage: 30}}, false, true) 











"s 于 关系 数据 库 的 SQL 语句 “update student set sage —30 where sname— 
命令 的 屏幕 截图 如 图 6-17 Bron. 


3z 


d. get 


alse, true) 





图 6-17 修改 数据 


6) 删除 数据 





»db.student.remove((sname: 'chenliu']) 





该 命 mon 当 于 关 





数据 库 的 SQL 语句 delete from student where sname 一 chenliu'。 





图 6-18 删除 数据 


7) 删除 集合 





>db.student.drop () 











执行 该 命令 过 程 的 屏幕 截图 如 图 6-19 所 示 。 





图 6-19 删除 集合 


4 退出 MongoDB Shell 模式 


可 以 输入 如 下 命令 退出 MongoDB Shell 模式 : 





>exit 











大 数据 基础 编程 、 实 验 和 案例 教程 


也 可 以 直接 按键 盘 上 的 Ctrl 十 C 键 ,退出 Shell 命令 模式 。 
6.2.4 Java API 编程 实例 


编写 Java 程序 访问 MongoDB 数据 库 时 ,首先 ,需要 下 载 Java MongoDB Driver 驱动 
JAR 包 ,Java MongoDB Driver 下 载 地 址 如 下 : 





http://central.maven.org/maven2/org/mongodb/mongo- java- driver/3.2.2/mongo- java- driver 








-3.2.2.jar 





可 以 在 Linux 系统 中 ,打开 浏览 器 ,访问 该 网 址 下 载 Java MongoDB Driver。 或 者 ,也 
可 以 直接 访问 本 书 官网 的 “下 载 专 区 ”, 到 “软件 ”目录 中 ,把 名 称 为 mongo-java-driver-3. 2. 2. jar 
的 文件 下 载 到 Linux 本 地 文件 系统 中 ,默认 的 下 载 文件 保存 目录 是 “一 /下 载 ? 或 者 一 / 
Downloads 。 

然后 就 可 以 打开 Eclipse, 参 照 第 4 章 中 介绍 的 Eclipse 编程 方法 ,新 建 一 个 Java 工程 ， 
在 工程 中 导入 刚刚 下 载 的 JAR 包 , 然 后 ,在 工程 中 新 建 一 个 MongoDBExample. java 文件 ， 
输入 如 下 代码 ,直接 在 Eclipse 中 编译 运行 即 可 。 








import java.util.ArrayList; 
import java.util.List; 
import org.bson.Document; 
import com.mongodb.MongoClient; 
import com.mongodb.client.MongoCollection; 
import com.mongodb.client.MongoCursor; 
import com.mongodb.client.MongoDatabase; 
import com.mongodb.client.model.Filters; 
public class TestMongoDB ( 

pe 


* (param args 


*/ 
public static void main(String[] args) ( 
/ insert(); // 插 和 数据。 执行 插入 时 ,可 将 其 他 三 名 函数 调 用 语句 注释 ,下 同 
find(; // 查 找 数 据 
A update () ; // 更 新 数据 
// delete(); // 删 除数 据 
} 
fex 


* 返回 指定 数据 库 中 的 指定 集合 

* Qparam dbname 数据 库 名 

* Qparam collectionname 集合 名 

* @return 

aki 

//MongonB 无 须 预定 义 数据 库 和 集合 ,在 使 用 的 时 候 会 自动 创建 











第 6 章 ”典型 NoSOL 数据 库 的 安装 和 使 用 








public static MongoCollection < Document > getCollection (String dbname, String 
collectionname)( 
// 实 例 化 一 个 mongo 客 户 端 ,服务 器 地 址 :localhost (本 地 ), 端 口号 :27017 
MongoClient mongoClient- new MongoClient ("localhost", 27017); 
// 实 例 化 一 个 mongo 数 据 库 
MongoDatabase mongoDatabase=mongoClient .getDatabase (dbname) ; 
// 获 取 数 据 库 中 某 个 集合 
MongoCollection« Document» collection- mongoDatabase.getCollection 
(collectionname); 
return collection; 
) 
/** 
* 插入 数据 
*/ 
public static void insert()( 
try{ 
// 连 接 MongopB, 指 定 连 接 数 据 库 名 ,指定 连接 表 名 
MongoCollection« Document» collection=getCollection ("School", 
"student"); // 数 据 库 名 :school, 集 合 名 :student 
// 实 例 化 一 个 文档 ,文档 内 容 为 {sname: ' Mary, sage:25}, 如 果 还 有 其 他 字段 ,可 以 
继续 追加 append 
Document docl- new Document ("sname", "Mary") .append ("sage", 25); 
// 实 例 化 一 个 文档 ,文档 内 容 为 {sname: 'Bob' , sage:20} 
Document doc2- new Document ("sname", "Bob") .append ("sage", 20); 
List« Document» documents- new ArrayList« Document» (); 
// docl、doc2 加 入 到 documents 列表 中 
documents.add (docl) ; 
documents.add (doc2) ; 
// 将 documents 插入 集合 
collection.insertMany (documents); 
System.out.println ("ARH"); 
)catch (Exception e) ( 
System.err.println(e.getClass () .getName () * ": "* e.getMessage ()) ; 


) 
/** 
* 查询 数据 
x, 
public static void find()( 
try{ 
MongoCollection« Document» collection-getCollection ("School", 
"student"); // 数 据 库 名 :school, 集 合 名 student 
// 通 过 游标 遍历 检索 出 的 文档 集合 
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/ MongoCursor« Document» cursor- collection. find (new Document (" sname", "Mary")). 
projection (new Document (" sname", 1). append (" sage", 1). append (" id", 0)). 
iterator(); //find 查询 条 件 :sname= 'Mary'. projection 筛选 :显示 sname 和 sage, 
不 显示 _id( id 默认 会 显示 ) 

// 查 询 所 有 数据 
MongoCursor« Document» cursor- collection.find().iterator(); 
while (cursor.hasNext () ) { 
System.out.println (cursor.next () .toJson () ) : 
} 
}catch (Exception e) ( 
System.err.println (e.getClass().getName ()* ": "* e.getMessage ()) ; 
bL 
) 
f 
* 更 新 数据 
*/ 
public static void update ()( 
try{ 
MongoCollection« Document» collection- getCollection ("School", 
"student"); // 数 据 库 名 :school, 集 合 名 :student 
// 更 新 文档 ,将 文档 中 sname= 'Mary' 的 文档 修改 为 sage=22 
collection.updateMany (Filters.eq("sname", "Mary"), new Document 
("$ set",new Document ("sage",22))) ; 
System.out .println(" 更 新 成 功 ! 
)catch (Exception e)( 
System.err.println(e.getClass().getName ()* ": "*e.getMessage()); 
} 
) 
pex 
* 删除 数据 
本 这 
public static void delete () { 
try{ 
MongoCollection« Document? collection- getCollection ("School", "student"); 
// 数 据 库 名 :school, 集 合 名 :student 
// 删 除 符合 条 件 的 第 一 个 文档 
collection.deleteOne (Filters.eq("sname", "Bob")); 
// 删 除 所 有 符合 条 件 的 文档 
//collection.deleteMany (Filters.eq("sname", "Bob")); 
System.out.println ("WRI 1") ; 
Jcatch (Exception e) { 
System.err.println(e.getClass () .getName () * ": "* e.getMessage ()) ; 
} 
T 
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上 述 代 码 也 可 以 直接 从 本 书 官 网 的 “下 载 专 区 "下载, 位 于 “代码 ”目录 的 “第 6 章 ” 子 目 
3t ,文件 名 是 MongoDBExample. java. 

每 次 在 Eclipse 中 执行 完 该 程序 ,都 可 以 在 Linux 系统 的 MongoDB Shell 模式 下 查看 
结果 。 例 如 , 在 Eclipse 执行 完 更 新 操作 后 ,在 MongoDB Shell 模式 下 输入 命令 db. 
student. find() ,就 可 以 查看 student 集合 的 所 有 数据 ( 见 图 6-20). 








图 6-20 查看 student 集合 的 所 有 数据 


6.3 本章 小 结 


传统 的 关系 数据 库 可 以 较 好 地 支持 结构 化 数据 存储 和 管理 ,但 是 ,Web 2.0 的 迅猛 发 展 
以 及 大 数据 时 代 的 到 来 ,使 关系 数据 库 的 发 展 越 来 越 力不从心 。 在 大 数据 时 代 , 数 据 类 型 繁 
多 ,包括 结构 化 数据 和 各 种 非 结 构 化 数据 ,其 中 , 非 结 构 化 数据 的 比例 更 是 高 达 90% 以 上 。 
因此 ,在 新 的 应 用 需求 驱动 下 ,各 种 新 型 的 NoSQL 数据 库 不 断 涌现 ,并 逐渐 获得 市 场 的 青 
lk, NoSQL 数据 库 主 要 包括 键 值 数据 库 、 列 族 数据 库 ,文档 数据 库 和 图 数据 库 4 种 类 型 ,前 
面 在 第 5 章 介绍 的 HBase 就 属于 列 族 数据 库 。 

键 值 数据 库 和 文档 数据 库 是 两 种 应 用 比较 广泛 的 NoSQL 数据 库 , 因 此 ,本 章 选 取 了 两 
TA 有 代表 性 的 产品 进行 介绍 ,包括 键 值 数据 库 Redis 和 文档 数据 库 MongoDB. i ll 4r 21 

这 两 种 数据 库 的 安装 和 使 用 方法 ,并 给 出 了 编程 实例 。 
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MapReduce 是 谷歌 公司 的 核心 计算 模型 , Hadoop 开源 实现 了 MapReduce。 
MapReduce 将 复杂 的 、 运 行 于 大 规模 集群 上 的 并 行 计 算 过 程 高 度 抽 象 到 了 两 个 函数 : Map 
和 Reduce, 并 极 大 地 方便 了 分 布 式 编程 工作 ,编程 人 员 在 不 会 分 布 式 并 行 编程 的 情况 下 ,也 
可 以 很 容易 将 自己 的 程序 运行 在 分 布 式 系统 上 ,完成 海量 数据 的 计算 。 

本 章 以 一 个 词 频 统计 任务 为 主线 ,详细 介绍 MapReduce 基础 编程 方法 。 首 先 , 曾 述 词 
频 统计 的 任务 要 求 ; 其 次 ,介绍 MapReduce 程序 的 具体 编写 方法 ;最 后 ,阐述 如 何 编译 运行 
程序 。 


7.1 词 频 统计 任务 要 求 


首先 在 Linux 系统 本 地 创建 两 个 文件 , 即 文件 wordfilel. txt 和 wordfile2. txt。 在 实际 
应 用 中 ,这 两 个 文件 可 能 会 非常 大 ,会 被 分 布 存 储 到 多 个 节点 上 。 但 是 ,为 了 简化 任务 ,这 里 
的 两 个 文件 只 包含 几 行 简单 的 内 容 。 需 要 说 明 的 是 ,针对 这 两 个 小 数据 集 样本 编写 的 
MapReduce 词 频 统计 程序 ,不 做 任何 修改 ,就 可 以 用 来 处 理 大 规模 数据 集 的 词 频 统计 。 

文件 wordfilel. txt 的 内 容 如 下 : 





I love Spark 
I love Hadoop 





文件 wordfile2. txt 的 内 容 如 下 : 





Hadoop is good 
Spark is fast 











假设 HDFS 中 有 一 个 input 文件 夹 ,并 且 文 件 夹 为 空 ,请 把 文件 wordfilel. cxt 和 
wordfile2. txt 上 传 到 HDFS 中 的 input 文件 夹 下 。 现 在 需要 设计 一 个 词 频 统计 程序 ,统计 
input 文件 夹 下 所 有 文件 中 每 个 单词 的 出 现 次 数 ,也 就 是 说 ,程序 应 该 输出 如 下 形式 的 结果 : 





fast 1 
good 1 
Hadoop 2 
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7.2 MapReduce 程序 编写 方法 


编写 MapReduce 程序 来 实现 词 频 统 计 功 能 ,主要 包括 以 下 3 个 步骤 。 
CD 编写 Map Jb IE fit, 

(2) 编写 Reduce Ab JI; fit 

(3) 编写 main 方法 。 


7.2.1 编写 Map 处 理 逻 辑 


MapReduce 程序 包括 Map 阶段 和 Reduce 阶段 。 在 Map 阶段 ,文件 wordfilel. txt 和 
文件 wordfile2. txt 中 的 文本 数据 被 读 入 ,以 所 key,value 之 的 形式 提交 给 Map 函数 进行 处 
理 , 其 中 ,key 是 当前 读 取 到 的 行 的 地 址 偏 移 量 ,value 是 当前 读 取 到 的 行 的 内 容 。 所 key， 
value 二 提交 给 Map 函数 以 后 ,就 可 以 运行 自 定义 的 Map Jb EE Si XE. value 进行 处 理 , 然 
后 以 特定 的 键 值 对 的 形式 进行 输出 ,这 个 输出 将 作为 中 间 结 果 , 继 续 提 供给 Reduce 阶段 作 
为 输入 数据 。 以 下 是 Map 处 理 逻 辑 的 具体 代码 : 





public static class TokenizerMapper extends Mapper< Object, Text, Text, IntWritable> { 
private static final IntWritable one- new IntWritable (1); 
private Text word- new Text (); 
public TokenizerMapper() ( 
) 
public void map (Object key, Text value, Mapper« Object, Text, Text, 
IntWritable» .Context context) throws IOException, InterruptedException { 
StringTokenizer itr- new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) ( 
this.word.set (itr.nextToken ()) ; 


context.write (this.word, one); 











7.2.2 编写 Reduce 处 理 逻 辑 


Map 阶段 得 到 的 中 间 结 果 , 经 过 Shuffle 阶段 (分 区 、 排 序 、 合 并 ) 以 后 ,分 发 给 对 应 的 
Reduce 任 务 去 处 理 。 对 于 Reduce 阶段 而 言 ,输入 是 二 key, valuerlist 二 形式 ,例如 ， 
<'Hadoop',<1,1 >>, Reduce 函数 就 是 对 输入 中 的 value-list 进行 求 和 ,得 到 词 频 统计 结 
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果 。 下 面 给 出 Reduce 处 理 逻 辑 的 具体 代码 : 





public static class IntSumReducer extends Reducer« Text, IntWritable, Text, IntWritable> { 
private IntWritable result- new IntWritable(); 
public IntSumReducer() { 
) 
public void reduce (Text key, Iterable« IntWritable» values, Reducer 
«Text, IntWritable, Text, IntWritable» .Context context) throws 
IOException, InterruptedException ( 
int sum-0; 
IntWritable val; 
for (Iterator i$-values.iterator(); i$.hasNext(); sumt-val.get()) { 
val- (IntWritable)i$.next(); 
) 
this.result.set (sum); 


context.write (key, this.result); 











7.2.3 编写 main 方法 


为 了 让 TokenizerMapper 类 和 IntSumReducer 类 能 够 协同 工作 ,完成 最 终 的 词 频 统计 
任务 ,需要 在 主 函 数 中 通过 Job 类 设置 Hadoop 程序 运行 时 的 环境 变量 ,具体 代码 如 下 : 





public static void main(String[] args) throws Exception { 
Configuration conf- new Configuration(); 
String[]otherArgs- (new GenericOptionsParser (conf, args)) .getRemainingArgs () ; 
if(otherArgs.length«2) ( 
System.err.println("Usage: wordcount« in» [< in» + ]& out» ") ; 
System.exit(2); 
$ 
Job job- Job.getInstance (conf, "word count"); // 设 置 环境 参数 
job.setJarByClass (WordCount.class); // 设 置 整 个 程序 的 类 名 
job.setMapperClass (WordCount.TokenizerMapper.class); ”// 添 加 Mapper 类 
job.setReducerClass(WordCount.IntSumReducer.class);  // 添 加 Reducer 类 
job.setOutputKeyClass (Text.class); // 设 置 输出 类 型 
job.setOutputValueClass (IntWritable.class); // 设 置 输出 类 型 
for (int i-0; i<otherargs.length-1;++i) ( 
FileInputFormat.addInputPath (job, new Path (otherArgs[i])); 


// 设 置 输入 文件 
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FileOutputFormat.setOutputPath (job, new Path (otherArgs [otherArgs.length- 1]));// 设 置 


输出 文件 


System.exit (job.waitForCompletion (true) ?0:1); 











7.2.4 完整 的 词 频 统计 程序 


在 编写 词 频 统计 Java 程序 时 ,需要 新 建 一 个 名 称 为 WordCount. java 的 文件 ,该 文件 包 
含 了 完整 的 词 频 统计 程序 代码 ,具体 如 下 : 





import java.io.IOException; 
import java.util.Iterator; 
import java.util.StringTokenizer; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapreduce.Reducer; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 
public class WordCount ( 
public WordCount() { 
) 
public static void main(String[] args) throws Exception ( 
Configuration conf- new Configuration (); 
String[] otherArgs- (new GenericOptionsParser (conf, args)). 
getRemainingArgs (); 
if(otherArgs.length«2) ( 
System.err.println("Usage: wordcount« in» [< in» *** | out» ") ; 
System.exit (2); 
) 
Job job-Job.getInstance (conf, "word count"); 
job.setJarByClass (WordCount.class); 
job.setMapperClass (WordCount.TokenizerMapper.class); 
job.setCombinerClass (WordCount.IntSumReducer.class); 
job.setReducerClass (WordCount.IntSumReducer.class); 
job.setOutputKeyClass (Text .class); 
job.setOutputValueClass (IntWritable.class); 
for (int i-0; i«otherArgs.length-1;t-*i) { 
FileInputFormat .addTnputPath (job, new Path (otherArgs[i])); 
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FileOutputFormat.setOutputPath (job, new Path (otherArgs [otherRrgs 
length-1])); 
System.exit (job.waitForCompletion (true) ?0:1); 
} 
public static class TokenizerMapper extends Mapper<Object, Text, Text, 
IntWritable> { 
private static final IntWritable one=new IntWritable (1); 
private Text word= new Text (); 
public TokenizerMapper() { 
} 
public void map (Object key, Text value, Mapper< Object, Text, Text, 
IntWritable> .Context context) throws IOFxception, InterruptedException { 
StringTokenizer itr- new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens ()) { 
this.word.set (itr.nextToken()); 


context.write (this.word, one); 


) 
public static class IntSumReducer extends Reducer« Text, IntWritable, Text, IntWritable» { 
private IntWritable result-new IntWritable(); 
public IntSumReducer() { 
x 
public void reduce (Text key, Iterable« IntWritable» values, Reducer 
«Text, IntWritable, Text, IntWritable» .Context context) throws 
IOException, InterruptedException ( 
int sum-0; 
IntWritable val; 
for (Iterator i$-values.iterator(); i$.hasNext(); sumt-val.get()) { 
val- (IntWritable)i$.next(); 
} 
this.result.set (sum); 


context.write (key, this.result); 











上 述 代 码 可 以 从 本 书 官网 的 “下 载 专区 ”中 下 载 ,进入 “下 载 专区 ”后 ,把 “代码 ”目录 的 
“第 7 章 ” 子 目录 中 的 WordCount. java 文件 下 载 到 本 地 。 


7.3 编译 打包 程序 


可 以 采用 两 种 方式 对 上 面 编写 的 WordCount 代码 进行 编译 打包 。 
(1) 使 用 命令 行 编译 打包 词 频 统计 程序 。 
(2) 使 用 Eclipse 编译 打包 词 频 统计 程序 。 
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7.3.1 使 用 命令 行 编译 打包 词 频 统计 程序 

在 第 3 章 中 已 经 安装 了 Java 程序 (JDK) ,因此 ,这 里 可 以 直接 用 JDK 包 中 的 工具 对 代 
码 进 行 编译 。 

首先 在 Linux 系统 中 打开 一 个 终端 ,把 Hadoop 的 安装 目录 设置 为 当前 工作 目录 ,命令 
如 下 : 





$cd /usr/local/hadoop 





然后 执行 如 下 命令 ,让 javac 编译 程序 可 以 找到 Hadoop 相关 的 JAR 包 : 





Sexport 

CLASSPATH- "/usr/local/hadoop/share/hadoop/common/hadoop- canmon- 2.7.1. jar: /usr/ 
local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce- client- core- 2.7.1.jar:/ 
usr/local/hadoop/share/hadoop/common/1ib/commons- cli- 1.2.jar:$CLASSPATH" 











接 下 来 就 可 以 执行 javac 命令 来 编译 程序 (这 里 假设 WordCount. java 文件 被 放 在 
/usr/local/hadoop 目录 下 ): 





$javac WordCount.java 











如 果 系 统 环境 找 不 到 javac 程序 的 位 置 ,那么 使 用 JDK 中 的 绝对 路 径 。 
编译 之 后 ,在 文件 夹 下 可 以 发 现 有 3 个 . class 文件 ,这 是 Java 的 可 执行 文件 。 此 时 , 需 
要 将 它们 打包 并 命名 为 WordCount. jar, 命 令 如 下 : 





$jar -cvf WordCount.jar * .class 











7.3.2 使 用 Eclipse 编译 运行 词 频 统 计 程 序 


上 面 介 绍 了 如 何 使 用 命令 行 编译 打包 词 频 统计 程序 ,实际 上 ,也 可 以 使 用 另外 一 种 方 
式 , 即 使 用 Eclipse 编译 运行 词 频 统计 程序 。 


l 在 Eclipse 中 创建 项 目 


首先 启动 Eclipse, 启 动 以 后 会 弹出 如 图 7-1 所 示 的 界面 ,提示 设置 工作 空间 (workspace) 。 

可 以 直接 采用 默认 的 设置 /home/hadoop/workspace, 单 击 OK 按钮 。 可 以 看 出 ,由 于 
当前 是 采用 hadoop 用 户 登 录 了 Linux 系统 ,因此 ,默认 的 工作 空间 目录 位 于 hadoop 用 户 目 
录 /home/hadoop 下 。 

Eclipse 启动 以 后 ,呈现 的 界面 如 图 7-2 所 示 。 

选择 File New-7Java Project 命令 ,开始 创建 一 个 Java 工程 ,弹出 如 图 7-3 所 示 的 界面 。 
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X' Workspace Launcher 


Select a workspace. 


Eclipse Platform stores your projects in a folder called a workspace. 
Choose a workspace folder to use for this session. 








iome/hadoop/workspacel T Browse... 





[0 Usethis as the default and do not ask again 


ox D 











图 7-1 Eclipse 工作 空间 设置 界面 


*0-q-)N)uc-]e *- DITE 





až ow ass 
lan outiineis not 
available. 

8 Problems [© Javadoc E Declaration © Consoie 1 r 

[No centoles to display at this time. 











图 7-2 ”Eclipse 启动 后 进入 的 界面 


X 口 New Java Project 


Create a Java Project 





Create Java projectin the workspace or in an external location. 





Projetname:|wordcount — | 








Ig (Use default location. J 





Location Browse. 
JRE 
O usean execution environment JRE: osciMinimum-12 
(9 Useaproject specific JRE: java-8-openjdk-amd64 J 
O Use default JRE (currently java-&openjdk-amd64") Configure JRES... 


© m went ow | NND 


图 7-3 新 建 Java 工程 界面 
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在 Project name 后 面 的 文本 框 中 输入 工程 名 称 WordCount, 选 中 Use default location 
复 选 框 ,让 这 个 Java 工程 的 所 有 文件 都 保存 到 /home/hadoop/workspace/ WordCount 目录 
下 。 在 JRE 这 个 选项 卡 中 ,可 以 选择 当前 的 Linux 系统 中 已 经 安装 好 的 JDK ,如 java-8- 
openjdk-amd64; 然 后 单 击 界面 底部 的 Next 按钮 ,进入 下 一 步 的 设置 。 


2 为 项 目 添加 需要 用 到 的 JAR 包 
进入 下 一 步 的 设置 以 后 ,会 弹出 如 图 7-4 所 示 的 界面 。 





X O New Java Project 


Java Settings ab 
Define the Java build settings. 


Source | Projects | miLibraries | 4; Order and Export. 
JARS and class folders on the build path: 








|» mà JRE System Library [java-8-openjdk-amdsa] Add JARS... J 
Add External JARS... | 
| Add Variable... 
Add Library... 
|... Add Class Folder... 


Add External Class Folder... | 


(o) m — ET | 


图 7-4 添加 JAR 包 界面 








需要 在 这 个 界面 中 加 载 该 Java 工程 所 需要 用 到 的 JAR 包 , 这 些 JAR 包 中 包含 了 可 以 
访问 HDFS 的 Java API。 这 些 JAR 包 都 位 于 Linux 系统 的 Hadoop 安装 目录 下 ,对 于 本 书 
而 言 , 就 是 在 /usr/local/hadoop/share/hadoop 目录 下 。 单 击 界面 中 的 Libraries 选项 卡 , 然 
后 单 击 界面 右 侧 的 Add External JARs 按钮 ,弹出 如 图 7-5 所 示 的 界面 。 

在 该 界面 中 ,上 面 有 一 排 目 录 按 钮 ( 即 usr, local, hadoop, share, hadoop, mapreduce 和 
lib) , 当 单 击 某 个 目录 按钮 时 ,就 会 在 下 面 列 出 该 目录 的 内 容 。 

为 了 编写 一 个 MapReduce 程序 ,一 般 需要 向 Java 工程 中 添加 以 下 JAR 包 。 

(1) /usr/local/hadoop/share/hadoop/common 目录 下 的 hadoop-common-2. 7. 1. jar 
和 haoop-nfs-2.7. 1.jar。 

(2) /usr/local/hadoop/share/hadoop/common/lib 目录 下 的 所 有 JAR 包 。 

(3) /usr/local/hadoop/share/hadoop/mapreduce 目录 下 的 hadoop-mapreduce-client- 
app-2.7.1.jar & JAR 包 , 具 体 如 图 7-6 所 示 。 

(4) /usr/local/hadoop/share/hadoop/mapreduce/lib 目录 下 的 所 有 JAR 包 。 

例如 ,如 果 要 把 /usr/local/hadoop/share/hadoop/common 目录 下 的 hadoop-common- 
2. 7. 1. jar 和 haoop-nfs-2. 7. 1. jar 添加 到 当前 的 Java 工程 中 ,可 以 在 界面 中 单 击 相 应 的 目 
录 按 钮 ,进入 到 common 目录 ,然后 ,界面 会 显示 出 common 目录 下 的 所 有 内 容 ( 见 图 7-7)。 
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X O JAR selection 

















[2| [E jus] local | hadoop | share | hadoop| mapreduce | lib 
P 名 称 ^ 大 小 修改 日 期 
|@ 最 近 使 用 的 E hofs 2015 年 06 月 29 日 
a hadoop B httpfs 20154064 29A 
a 桌面 a kms 2015 年 06 月 29 日 
| 回 文件 系统 E mapreduce 2015 年 06 月 29 日 
Bp 文档 ill tools 2015 年 06 月 29 日 
EL a yarn 2015 年 06 月 29 日 
LIT 
Bs 
|j 

aS |*jan*zip = | 

"o | 








图 7-5 选择 JAR 包 界面 


hadoop-mapreduceclient-app-2.7.1.jar 
B hadoop-mapreduce-client-common-2.7.1.jar 


B hadoop-mapreducec-client-core-2.7.1.jar 


IB hadoop-mapreduce-client-hs-2.7.1.jar 
[Bi hadoop-mapreduce-client-hs-plugins-2.7.1.jar 


B hadoop-mapreduce-clientjobclient22.7.1.jar 
[Bi hadoop-mapreducecclientjobclient-2.7.1-tests.jar 
B hadoop-mapreduce-client-shuffle-2.7.1.jar 





[Bi hadoop-mapreduce-examples-2.7.1.jar 


图 7-6 需要 添加 的 JAR E 


X O JAR selection 




















Ø| |[3 | usr| local | hadoop | share | hadoop | common) 
EO E ^A 修改 日 其 
|Q 搜索 a jdirt 2015 年 06 月 29 晶 
e 最 近 使 用 的 LI 2015 年 06 月 29 日 
m hadoop WI sources 2015 年 06 月 29 日 
| 是 桌面 ii templates 2015 年 06 月 29 日 
Szene 
Bë B hadoop-common-2.7.1-tests.jar 1.9MB ”2015 年 06 月 29 日 
Jas 
a 图 片 
项 视频 

*rR 

TE 














图 7-7 添加 common 目录 下 的 JAR 包 
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在 界面 中 选中 hadoop-common-2. 7. 1. jar 和 haoop-nfs-2. 7. 1. jar, 然 后 单 击 界面 右 下 
角 的 “确定 ”按钮 ,就 可 以 把 这 两 个 JAR 包 增 加 到 当前 Java 工程 中 ,出 现 的 界面 如 图 7-8 
所 示 。 


XO New Java Project 


Java Settings ah 
Define the Java build settings. 


source Projects | miLibraries | ;Order and Export. 
JARS and class folders on the build path: 





EEA 2.7.1.jar -Jusrlocal/hadoop/share/hadoop/ci Add JARS... J 
* E hadoopnfs2.7.1 jar- /usr/local/hadoop/share/hadoop/comma i 


P sh JRE System Library [ava S openjdiamdea] T | 


| AddVariable.. — | 





|... Add Library... J 
[. Add class Folder.. | 
[Add External Class Folder... 


Q <Back Next> Cancel || Finish 








图 7-8 添加 JAR 包 后 的 结果 


从 这 个 界面 中 可 以 看 出 ,hadoop-common-2. 7. 1. jar 和 haoop-nfs-2. 7. 1. jar 已 经 被 添 
加 到 当前 Java 工程 中 ;然后 按照 类 似 的 操作 方法 ,可 以 再 次 单 击 Add External JARs 按钮 ， 
把 剩余 的 其 他 JAR 包 都 添加 进来 。 需 要 注意 的 是 , 当 需 要 选中 某 个 目录 下 的 所 有 JAR 包 
时 ,可 以 使 用 Ctrl 十 A 键 进行 全 选 操作 。 全 部 添 
加 完毕 以 后 ,可 以 单 击 界面 右 下 角 的 Finish 按钮 ， 
完成 Java 工程 WordCount 的 创建 。 





3. 编写 Java 应 用 程序 


WordCount 


下 面 编写 一 个 Java 应 用 程序 , 即 WordCount. 9 src um . ; 
* mi JRE System Libra -&-openjdk-amd64 
java, TE Eclipse 工作 界面 左 侧 的 ackage Explorer ystem Library [java-8-openjdk-am 


» mÀ Referenced Libraries 


面板 中 ( 见 图 7-9) 找 到 刚才 创建 好 的 工程 名 称 
WordCount, 然 后 在 该 工程 名 称 上 右 击 , 在 弹出 的 
菜单 中 选择 New Class 命令 。 

选择 New 一 Class 命令 以 后 会 出 现 如 图 7-10 所 示 的 界面 。 

在 该 界面 中 ,只 需要 在 Name 后 面 的 文本 框 中 输入 新 建 的 Java 类 文件 的 名 称 , 这 里 采 
用 名 称 WordCount ,其 他 都 可 以 采用 默认 设置 ;然后 单 击 界面 右 下 角 Finish 按钮 ,出 现 如 
图 7-11 所 示 的 界面 。 

可 以 看 出 ,Eclipse 自动 创建 了 一 个 名 为 WordCount. java 的 源 代码 文件 ,并 且 包含 了 代 
码 public class WordCount{) ,清空 该 文件 里 面 的 代码 ,然后 在 该 文件 中 输入 7. 2.4 节 中 已 








图 7-9 Package Explorer 面板 
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X B New Java Class 

















Java Class Q9 
à, The use of the default package is discouraged. 
Sourcefolder: — [wordcount/src j| Browse. | 
Package: [ | (default)| Browse... 
C) Enclosing type: Browse. 
Name: [wordcount P | 
Modifiers: @ public — C default private @ protected 

[C] abstract ( ) final E static 
Superclass: [java.lang.Object || Browse. | 
Interfaces: Add. 


© ox D 











le Edit Source Refact V V 
| ra ~ àj» -o-a-|x]ec-]o ?-]v[su m 
]SÉ-6i- oTov 
I Package Explorer 区 . e$ gx 对 


Y i WordCount 
"四 src 
Y iB (default package) 
* [jj WordCount.java 
> mÀ JRE System Library [java-8-openjdk-amd64] | 
> mà Referenced Libraries 








|E Problems | & Javadoc [© Declaration E) console zt 
| No consoles to display at this time. 
| 


| 
图 7-11 WordCount. java 文件 编辑 





经 给 出 的 完整 的 词 频 统计 程序 代码 。 
词 频 统计 程序 代码 复制 进去 以 后 ,可 能 会 出 现 如 图 7-12 所 示 的 错误 。 


Systen.exit(job.waitForCompletion(true) 70:1]; 





- [Multiple markers at this ne Ic 
-The class file Reducer-KEYIN,VALUEIN,KEYOUT,VALUEOUT» contains a signature '(Lorg/apache/hadoop/ 


mapreduce/Reducer«TKEYIN;TVALUEIN;TKEYOUTTVALUEOUT;» Context;JV' il formed at position 75 
-Syntax error, parameterized types are only available if source level is 1.5 or greater 











public void reduce(Text key, Iterable-IntWritable» values, Reducer-Text, IntWritable, Text 
int sum - 6; 











图 7-12 Eclipse 给 出 的 错误 信息 
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关于 这 个 错误 的 原因 和 解决 方法 ,之 前 已 经 在 第 5 章 中 做 过 介绍 ,可 以 采用 之 前 的 方法 
解决 这 个 错误 ,这 里 不 再 缆 述 。 
4 编译 打包 程序 


现在 就 可 以 编译 上 面 编 写 的 代码 。 可 以 直接 单 击 Eclipse 工作 界面 上 部 的 运行 程序 的 
快捷 按钮 , 当 把 鼠标 移动 到 该 按钮 上 时 ,在 弹出 的 菜单 中 选择 Run as>Java Application 命 
令 , 如 图 7-13 所 示 。 


refactor Navigate Search Project Run 
jo- -mesa]js-o-&r-jxajec-]os-]P EB 
]Si v öle e ev m or]. (nolaunch history) 





It Package Explorer E ， 1Java Application Shift+Alt+xJ 
x3 WordCount CX mes org. apache. hadoop-mapreduce. Lib. output.FileOutputFormat; 
Pa Organize Favorites... Ft org.apache.hadoop-util.GenericOptionsParser; 
asce 
M | Publi elass Wordcount { 
dn (daraultpadiagi) public WordCount() { 
* 回 wordcountjava ; 


* BÀ JRE System Library [J25E-1.5] public static void main(String[] args) throws Exception { 
* mà Referenced Libraries Configuration conf = new Configuration); 
String] otherArgs - (new GenericOptionsParser(conf, args)) 








图 7-13 编译 运行 程序 


然后 会 弹出 如 图 7-14 所 示 的 界面 。 

单 击 界面 右 下 角 的 OK 按钮 ,开始 运行 程序 。 
程序 运行 纺 i 束 后 ,会 在 底部 的 Console 面板 中 显示 

运行 结果 信息 ( 见 图 7-15) 。 Select resources to Save: 

下 面 就 可 以 把 Java 应 用 程序 打包 生成 JAR | (80 wordcountjava 
包 , 部 署 到 Hadoop 平台 上 和 运行。 在 第 4 章 中 ,已 
经 在 Hadoop 安装 目录 下 新 建 了 一 个 名 称 为 
myapp 的 目录 ,用 来 存放 我 们 自己 编写 的 Hadoop 
应 用 程序 ,现在 可 以 把 词 频 统计 程序 放 在 myapp 
目录 下 。 

首先 在 Eclipse 工作 界面 左 侧 的 Package 
Explorer 面板 中 的 工程 名 称 WordCount E A it. C Always save resources before launching 
从 弹出 的 菜单 中 选择 Export, 如 图 7-16 所 示 。 


X O Save and Launch 


SelectAll || DeselectAll | 








然后 会 弹出 如 图 7-17 所 示 的 界面 。 O | cw | 
在 该 界面 中 ,选择 Runnable JAR file. $5 Jr; "f 


击 Next 按钮 ,弹出 如 图 7-18 所 示 的 界面 。 E AA S A AE 

在 该 界面 中 ,Launch configuration 用 于 设置 
生成 的 JAR 包 被 部 署 启动 时 运行 的 主 类 ,需要 在 下 拉 列 表 中 选择 刚才 配置 的 类 WordCount 
(6)-WordCount。 在 Export destination 下 拉 列 表 中 需要 设置 JAR 包 要 输出 保存 到 哪个 目 
录 , 例 如 ,这 里 设置 为 /usr/local/hadoop/myapp/WordCount. jar. fE Library handling 下 面 
选择 的 Extract required libraries into generated JAR 单 选 按 钮 ;然后 单 击 Finish 按钮 ,会 ! 
现 如 图 7-19 所 示 的 界面 。 
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D WordCount java E^. 


import org.apache.hadoop .mapreduce. Lib. output.FileDutputFormat; 
import org.apache.hadoop .util.GenericOptionsParser; 





public class Wordcount { 
s publie Wordcount() { 
了 


s publie static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 
String[] otherArgs = (new GenericOptionsParser(conf, args)) .getRenainingArgs); 
if(otherArgs.longth < 2) ( 
System.err.println("Usage: wordcount «im» [<in>. 
System.exit(2): 





.] out»); 
$ 


Job job = Job.getInstance(conf, "word count"): 
job. setJar&yClass (WordCount. class); 

job. setMapperClass (WordCount . Tokeni zerMapper. class) 
i 























F. Problems | @ Javadoc [ Declaration. 


XCk cx alela 





terminated» WordCount (6) [Java Application] /usr/lib/jvm/java-8-openjdk-amd64/bin/java (2017-1-30 下 午 7:09:31) 





Usage: wordcount «im» [«im»...] <outf 




















图 7-15 程序 运行 结果 信息 

























New 
Golnto 
Open in New Window 
Te ^ he. hadoop.maprd 
Showin Shiftealtew * he hadoop-utit 
Y i (default package] Copy Ctri«c ecount { 
* 回 wordcountjay COPY Qualified Name : 
i Paste Cul 
* mh JRE System Library Delete Delete ic void main(s 
* mà Referenced Librarii ration conf = 
, 1 otherArgs = (| 
Build Path IrArgs. length < 
Source Shift«Alt4S * Iten.err.println 
Refactor Shiftsaltar » [tem.exit(2; 
Import.. = Job.getInst: 
rByClass (Wor 
h ipperClass (Wo 
Refresl FS Combi 





图 7-16 导出 程序 





Select A 


Export all resources required to run an application into a JAR file on the local file system. ES] 


Select an export destination: 





type filter text 





P & General 
& Install 

|" & Java 

JD JaRfile 

.S) Javadoc 
& Plug-in Development 
& Run/Debug 
& Team 








回 - AEN o Finish 








图 7-17 导出 程序 类 型 选择 
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X O Runnable JAR File Export 
Runnable JAR File Specification 

Select a Java Application' launch configuration to use to create a runnable JAR. RU 
Launch configuration: 


| WordCount (6) -WordCount 





Export destination: 


Just/local/hadoop/myapp/WordCount jar T Browse. 








Library handling: 





@ Extract required libraries into generated JAR 
O Package required libraries into generated JAR 
O Copyrequired libraries into a sub-folder next to the generated JAR 


M Save as ANT scrint 


回 mM Net» ovs NN 


图 7-18 导出 程序 选项 设置 








| IZ Runnable JAR File Export 


This operation repacks referenced libraries. 


Please review the licenses associated with libraries you wish to reference to make sure 
you are able to repack them using this application. Note also that this operation does 
not copy signature files from original libraries to the generated JAR file. 





图 7-19 导出 程序 时 的 提示 信息 





可 以 忽略 该 界面 的 提示 信息 ,直接 单 击 界 面 右 下 角 的 OK 按钮 ,启动 打包 过 程 。 打 包 过 
程 结 束 后 ,会 出 现 一 个 警告 信息 界面 ,如 图 7-20 BER 。 


X O Runnable JAR File Export 





wy JARexport finished with warnings. See details for additional information. 


ES 


图 7-20 导出 程序 时 的 警告 信息 








可 以 忽略 该 界面 的 警告 信息 ,直接 单 击 界面 右 下 角 的 OK 按钮 。 至 此 ,已 经 顺利 把 
WordCount 工程 打包 生成 了 WordCount. jar。 可 以 到 Linux 系统 中 查看 一 下 生成 的 
WordCount. jar 文件 ,可 以 在 Linux 的 终端 中 执行 如 下 命令 : 
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$cd /usr/local/hadoop/myapp 
$1s 











nf DUE SJ. /usr/local/hadoop/myapp 目录 下 已 经 存在 一 个 WordCount. jar 文件 。 


7.4 运行 程序 


运行 程序 之 前 ,需要 启动 Hadoop ,命令 如 下 : 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 











启动 Hadoop 之 后 ,需要 首先 删除 HDFS 中 与 当前 Linux 用 户 hadoop 对 应 的 input 和 
output 目录 ( 即 HDFS 中 的 /user/hadoop/input 和 /user/hadoop/output 目录 ), 这 样 确保 
后 面 程序 运行 不 会 出 现 问 题 ,具体 命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -rm -r input 
$./bin/hdfs dfs - rm -r output 





然后 再 在 HDFS 中 新 建 与 当前 Linux 用 户 hadoop 对 应 的 input 目录 , 即 /user/ 
hadoop/input 目录 ,具体 命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -mkdir input 











然后 把 第 7. 1 节 中 在 Linux 本 地 文件 系统 中 新 建 的 两 个 文件 wordfilel. txt 和 
wordfile2. txt( 假 设 这 两 个 文件 位 于 /usr/local/hadoop 目录 下 ) ,上传 到 HDFS 中 的 /user/ 
hadoop/input 目录 下 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -put ./wordfilel.txt input 
$./bin/hdfs dfs -put ./wordfile2.txt input 





现在 就 可 以 在 Linux 系统 中 ,使 用 hadoop jar 命令 运行 程序 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hadoop jar ./myapp/WordCount.jar input output 





上 面 命令 执行 以 后 , 当 运 行 顺利 结束 时 ,屏幕 上 会 显示 类 似 如 下 的 信息 : 





…// 这 里 省 略 若干 屏幕 信息 


17/01/30 19:54:54 INFO mapreduce.Job: map 100$ reduce 100$ 
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17/01/30 19:54:54 INFO mapreduce.Job: Job job 10cal11874680376 0001 completed 


successfully 
17/01/30 19:54:54 INFO mapreduce.Job:Counters: 35 
File System Counters 
FILE: Number of bytes read- 99579063 
FILE: Number of bytes written- 101193318 
FILE: Number of read operations- 0 
FILE: Number of large read operations-0 
FILE: Number of write operations- 0 
HDFS: Number of bytes read- 146 
HDFS: Number of bytes written- 47 
HDFS: Number of read operations- 22 
HDFS: Number of large read operations- 0 
HDFS: Number of write operations- 5 
Map- Reduce Framework 
Map input records- 6 
Map output records- 12 
Map output bytes- 104 
Map output materialized bytes-112 
Input split bytes- 236 
Combine input records- 12 
Combine output records- 9 
Reduce input groups- 7 
Reduce shuffle bytes-112 
Reduce input records- 9 
Reduce output records- 7 
Spilled Records- 18 
Shuffled Maps-2 
Failed Shuffles- 0 
Merged Map outputs-2 
GC time elapsed (ms)- 234 


Total committed heap usage (bytes)- 792342528 


Shuffle Errors 
BAD ID-0 
CONNECTION- 0 
IO ERROR-0 
WRONG LENGTH- 0 
WRONG MAP=0 
WRONG REDUCE- 0 
File Input Format Counters 
Bytes Read- 58 
File Output Format Counters 
Bytes Written- 47 
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词 频 统计 结果 已 经 被 写 人 了 HDFS 的 /user/hadoop/output 目录 中 ,可 以 执行 如 下 命 
令 查看 词 频 统计 结果 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -cat output/ * 











上 面 命令 执行 后 ,会 在 屏幕 上 显示 如 下 词 频 统计 结果 : 





Hadoop 2 


is 2 








love 2 





至 此 , 词 频 统计 程序 顺利 运行 结束 。 需 要 注意 的 是 ,如 果 要 再 次 运行 WordCount. jar， 
需要 首先 删除 HDFS 中 的 output 目录 ,否则 会 报错 。 


7.5 本 章 小 结 


本 童 详细 演示 如 何 编写 MapReduce 程序 实现 词 频 统计 功能 。 在 编写 MapReduce 程序 
之 前 ,需要 先 判 断 目 标 任务 是 否 可 以 采用 MapReduce 编程 。MapReduce 会 把 一 个 大 的 文 
件 切 分 成 多 小 片段 进行 分 布 式 并 行 处 理 .最 终 对 不 同 片段 的 处 理 结 果 进 行 汇 总 。 很 显然 , 词 
频 统计 任务 是 符合 这 个 要 求 的 ,因此 ,可 以 采用 MapReduce 编写 程序 。 

本 章 详细 介绍 MapReduce 程序 的 具体 编写 方法 ,包括 编写 Map Jb IE 4 Reduce 处 
IE TH main 方法 等 。 最 后 ,演示 了 如 何 使 用 Eclipse 编译 运行 Java 应 用 程序 。 通 过 本 章 
的 学 习 , 可 以 形成 对 MapReduce 编程 方法 的 基本 认识 。 如 果 要 深入 了 解 如 何 把 各 种 任务 转 
换 成 MapReduce 程序 ,建议 继续 学 习 相关 的 进 阶 书籍 。 


数据 仓库 Hive 的 安装 和 使 用 


Hive 是 一 个 基于 Hadoop 的 数据 仓库 工具 ,可 以 用 于 对 存储 在 Hadoop 文件 中 的 数据 
集 进 行 数据 整理 ,特殊 查询 和 分 析 处 理 。Hive 的 学 习 门 槛 比较 低 , 因 为 它 提 供 了 类 似 于 关 
系数 据 库 SQL 语言 的 查询 语言 HiveQL, 可 以 通过 HiveQL 语句 快速 实现 简单 的 
MapReduce 统计 ,Hive 自身 可 以 将 HiveQL 语句 快速 转换 成 MapReduce 任务 进行 运行 ,而 
不 必 开 发 专门 的 MapReduce 应 用 程序 ,因而 十 分 适合 数据 仓库 的 统计 分 析 。 

本 章 首先 介绍 Hive 的 安装 方法 ;然后 介绍 Hive 的 数据 类 型 和 基本 操作 ;最 后 给 出 了 
一 个 WordCount 应 用 实例 ,来 展示 Hive 编程 的 优势 。 


8.1 Hive 的 安装 


本 节 介绍 Hive 的 具体 安装 方法 ,包括 下 载 安装 文件 .配置 环境 变量 、 修 改 配置 文件 ,以 
及 安装 配置 MySQL 等 。 


8.1.1 下 载 安装 文件 


登录 Linux 系统 (本 书 统 一 采用 hadoop 用 户 登 录 ), 打 开 浏 览 器 ,访问 Hive 官网 
(http://www. apache. org/dyn/closer. cgi/hive/) 下 载 安装 文件 apache-hive-1. 2. 1-bin. tar. gz» 
把 安装 文件 保存 到 “一 /下 载 /” 目 录 下 ;或 者 也 可 以 直接 到 本 书 官网 的 “下 载 专 区 ”中 下 载 
Hive 安装 文件 , 单 击 进 入 下 载 专区 后 ,在 “软件 ”这 个 文件 夹 中 ,找到 文件 apache-hive-1. 2. 
l-bin. tar. gz, 下 载 到 本 地 ,保存 到 Linux 系统 的 “~ 一/ 下载? 目录 下 (也 就 是 “/home/hadoop/ 
下 载 "目录 )。 需 要 说 明 的 是 ,当前 Hive 官网 已 经 提供 2.0 以 上 版 本 的 下 载 ,但 是 ,作为 人 门 
学 习 , 安 装 1. 2. 1 版 本 是 没有 问题 的 。 

下 载 完 安装 文件 以 后 ,需要 对 文件 进行 解压 。 按 照 Linux 系统 使 用 的 默认 规范 ,用 户 安 
装 的 软件 一 般 都 是 存放 在 /usr/local/ 目 录 下 。 在 Linux 系统 中 打开 一 个 终端 ,执行 如 下 
命令 : 











$sudo tar - zxvf ./apache-hive-1.2.1-bin.tar.gz -C /usr/local # 解 压 到 /usr/local 中 
$cd /usr/local/ 

$sudo mv apache- hive- 1.2.1- bin hive # 将 文件 夹 名 改 为 hive 

$sudo chown -R hadoop:hadoop hive 坦 修改 文件 权限 
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8.1.2 配置 环境 变量 


为 了 方便 使 用 ,可 以 把 hive 命令 加 入 到 环境 变量 PATH 中 ,从 而 可 以 在 任意 目录 下 直 
接 使 用 hive 命令 启动 ,使 用 vim 编辑 器 打开 一 /. bashrc 文件 进行 编辑 ,命令 如 下 : 





$vim ~/.bashrc 





在 该 文件 的 最 前 面 一 行 添加 如 下 内 容 : 





export HIVE HOME= /usr/local/hive 
export PATH= $PATH:$HIVE HOME/bin 





保存 该 文件 并 退出 vim 编辑 器 ,然后 运行 如 下 命令 使 得 配置 立即 生效 : 





$source ~/.bashrc 











8.1.3 修改 配置 文件 


将 /usr/local/hive/conf 目录 下 的 hive-default. xml. template 文 件 重 命名 为 hive- 
default. xml, 命 令 如 下 : 





$cd /usr/local/hive/conf 
$sudo mv hive- default.xml.template hive- default.xml 





同时 ,使 用 vim 编辑 器 新 建 一 个 文件 hive-site. xml, 命 令 如 下 : 





$cd /usr/local/hive/conf 


$vim hive- site.xml 





在 hive-site. xml 中 输入 如 下 配置 信息 : 





<?xml version- "1.0" encoding- "UTF- 8" standalone- "no"? > 
<?xml- stylesheet type= "text/xsl" href- "configuration.xsl"? > 
«configuration» 
«property» 
«name» javax.jdo.option.ConnectionURI« /name> 
« value» jdbc:mysql://localhost:3306/hive? createDatabaselfNotExist- true« /value» 
« description» JDBC connect string for a JDBC metastore« /description» 
< /property» 
«property» 


«name» javax. jdo.option.ConnectionDriverName« /name> 
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<value> com.mysql . jdbc .Driver< /value> 
<description> Driver class name for a JDBC metastore< /description» 
< /property» 
<property> 
< name» javax.jdo.option.ConnectionUserName< /name> 
<value>hive< /value> 
< description> username to use against metastore database< /description> 
< /property» 
<property> 
< name» javax.jdo.option.ConnectionPassword« /name> 
<value>hive< /value> 
«description» password to use against metastore database« /description> 
< /property» 
< /configuration» 











该 配置 文件 可 以 直接 从 本 书 官网 “下 载 专区 ”的 “代码 ”目录 的 “第 8 章 ? 子 目录 下 载 , 文 
件 名 是 hive-site. xml, 


8.1.4 安装 并 配置 MySQL 


1 安装 MySQL 

这 里 采用 MySQL 数据 库 保 存 Hive 的 元 数据 ,而 不 是 采用 Hive 自 带 的 derby 来 存储 
元 数据 ,因此 ,需要 安装 MySQL 数据 库 。 可 以 参照 附录 B, 完 成 MySQL 数据 库 的 安装 ,这 
里 不 再 歼 述 。 

2 下 载 MySQL JDBC 驱动 程序 


为 了 让 Hive 能 够 连接 到 MySQL 数据 库 , 需 要 下 载 MySQL JDBC 驱动 程序 。 可 以 到 
MySQL È W (http://www. mysql. com/downloads/connector/j/) F 载 mysql-connector- 
java-5. 1. 40. tar. gz; 或 者 ,也 可 以 直接 到 本 书 官网 的 “下 载 专区 ”中 下 载 , 单 击 进 入 下 载 专 区 
后 ,在 “软件 ”这 个 文件 夹 中 找到 文件 mysql-connector-java-5. 1. 40. tar. gz, 下 载 到 本 地 , 保 
存 到 Linux 系统 的 “~ 一/ 下载? 目录 下 (也 就 是 “/home/hadoop/ 下 载 ” 目 录 ) 。 

然后 在 Linux 系统 中 打开 一 个 终端 ,在 终端 中 执行 如 下 命令 解压 缩 文件 : 








$cd~ 

$tar -zxvf mysql- connector- java- 5.1.40.tar.gz Hk 

S4 F MH mysql- connector- java- 5.1.40- bin.jar # fil | /usz/1ocal/hive/lib 目录 下 
$cp mysql- connector- java- 5.1.40/mysql- connector- java- 5.1.40- bin.jar/usr/ 
local/hive/lib 











3. 启动 MySQL 
执行 如 下 命令 启动 MySQL .Jf3E A" mysql" p ERARE: 


!459 
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$service mysql start 3/8 81 MysoL 服务 
$mysql -u root -p # 登 录 Mysor 数据 库 











系统 会 提示 输入 root 用 户 的 密码 ,本 书 在 安装 MySQL 数据 库 时 ,把 MySQL 的 root 
用 户 密码 设置 为 hadoop, 因 此 ,这 里 可 以 输入 hadoop。 


4 在 MySQL 中 为 Hive 新 建 数据 库 


现在 需要 在 MySQL 数据 库 中 新 建 一 个 名 称 为 hive 的 数据 库 ,用 来 保存 Hive 的 元 数 
据 。MySQL 中 的 这 个 hive 数据 库 , 是 与 Hive 的 配置 文件 hive-site. xml 中 的 mysql:// 
ocalhost:3306/hive 对 应 起 来 的 ,用 来 保存 Hive 元 数据 。 在 MySQL 数据 库 中 新 建 hive 数 
据 库 的 命令 ,需要 在 “mysql 二 ”命令 提示 符 下 执行 ,具体 如 下 : 





mysql» create database hive; 











5. 配置 MySQL. 允许 Hive 接 入 
需要 对 MySQL 进行 权限 配置 ,允许 Hive 连接 到 MySQL。 





mysql»grant all on * .* to hive@ localhost identified by 'hive'; 
mysql> flush privileges; 








上 面 的 第 一 行 命令 ,将 MySQL 的 所 有 数据 库 的 所 有 表 的 所 有 权限 赋 给 hive 用 户 ,后 
面 的 hive 是 在 配置 文件 hive-site. xml 中 事先 设置 的 连接 密码 。 第 二 行 命令 ,用 来 刷新 
MySQL 系统 权限 关系 表 。 





6 启动 Hive 


Hive 是 基于 Hadoop 的 数据 仓库 ,会 把 用 户 输入 的 查询 语句 自动 转换 成 为 MapReduce 任 
务 来 执行 ,并 把 结果 返回 给 用 户 。 因 此 .启动 Hive 之 前 ,需要 先 启动 Hadoop 集群 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 





然后 再 执行 如 下 命令 启动 Hive: 





$cd /usr/local/hive 
$./bin/hive 











实际 上 ,由 于 之 前 已 经 配置 了 环境 变量 PATH, 因 此 ,也 可 以 直接 使 用 如 下 命令 启动 
Hive: 





Shive 
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在 启动 Hive 时 ,有 可 能 会 出 现 Hive metastore database is not initialized 的 错误 。 出 现 
这 个 错误 的 原因 是 ,以 前 曾经 安装 了 Hive 或 MySQL, 重 新 安装 Hive 和 MySQL 以 后 ,导致 
版 本 、 配 置 不 一 致 。 解 决 方法 是 ,使 用 schematool TH. Hive 现在 包含 一 个 用 于 Hive 
Metastore 架构 操控 的 脱 机 工具 schematool。 此 工具 可 用 于 初始 化 当前 Hive 版 本 的 
Metastore 架构 。 此 外 , 它 还 可 处 理 从 较 旧 版 本 到 新 版 本 的 架构 升级 。 所 以 ,为 了 解决 上 述 
错误 ,可 以 在 终端 中 执行 如 下 命令 (注意 ,不 是 在 “mysql 二 ”命令 提示 下 执行 ): 








$schematool -dbType mysql -initSchema 











执行 该 命令 后 ,再 启动 Hive, 就 可 以 正常 启动 了 。 
8.2 Hive 的 数据 类 型 


Hive 支持 关系 数据 库 中 的 大 多 数 基 本 数据 类 型 ,同时 Hive 还 支持 关系 数据 库 中 不 常 
出 现 的 的 3 种 集合 数据 类 型 。 表 8-1 中 列举 了 Hive 所 支持 的 基本 数据 类 型 ,包括 多 种 不 同 
长 度 的 整 型 和 淫 点 型 数据 类 型 .布尔 类 型 以 及 无 长 度 限制 的 字符 串 类 型 。 另 外 ,新 版 本 
(Hive v0. 8. 0 以 上 ) 中 还 支持 时 间 惟 数据 类 型 和 二 进 制 数组 数据 类 型 。 表 8-2 列举 了 Hive 
中 的 列 所 支持 的 3 种 集合 数据 类 型 : struct、map、array。 这 里 需要 注意 的 是 , 表 8-2 的 示例 
实际 上 调用 的 是 内 置 函数 。 


表 8-1 Hive 的 基本 数据 类 型 
































类 型 描 x 示 ü 
TINYINT 1B(8b) 有 符号 整数 1 

SMALLINT 2B(16b) 有 符号 整数 1 

INT 4B(32b) 有 符号 整数 1 

BIGINT 8B(64b) 有 符号 整数 1 

FLOAT 4B(32b) 单 精度 浮 点 数 1.0 

DOUBLE 8B(64b) 双 精度 浮 点 数 1.0 

BOOLEAN 布尔 类 型 ,true/false true 

STRING 字符 串 , 可 以 指定 字符 集 "xmu" 
TIMESTAMP 整数 、 浮 点 数 或 者 字符 串 1327882394(UNIX 新 纪元 秒 ) 
BINARY 字 节 数组 [0,1,0,1,0,1,0,1] 











表 8-2 Hive 的 集合 数据 类 型 
类 型 描 R R A 
ARRAY 一 组 有 序 字段 ,字段 的 类 型 必须 相同 Array(1,2) 


一 组 无 序 的 键 / 值 对 , 键 的 类 型 必须 是 原子 的 , 值 可 以 是 任何 
数据 类 型 ,同一 个 映射 的 键 和 值 的 类 型 必须 相同 


STRUCT 一 组 命名 的 字段 ,字段 类 型 可 以 不 同 Struct('a',1,1,0) 











MAP Map('a',1,'b',2) 
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8.3 Hive 基本 操作 


HiveQL 是 Hive 的 查询 语言 ,和 SQL 语言 比较 类 似 ,对 Hive 的 操作 都 是 通过 编写 
HiveQL 语句 来 实现 的 。 接 下 来 介绍 一 下 Hive 中 常用 的 几 个 基本 操作 。 
8.3.1 创建 数据 库 . 表 、 视 图 

1 创建 数据 库 

(1) 创建 数据 库 hive, 








hive> create database hive; 








(2) 创建 数据 库 hive, 因 为 hive 已 经 存在 ,所 以 会 抛 出 异常 ,加 上 if not exists 关键 字 ， 
则 不 会 抛 出 异常 。 





hive> create database if not exists hive; 











2 创建 表 
(1) 在 hive 数据 库 中 创建 表 usr, 含 3 个 属性 : id、name、age。 





hive> use hive; 


hive> create table if not exists usr (id bigint,name string,age int); 











(2) 在 hive 数据 库 中 创建 表 usr, 含 3 个 属性 : id、name、age。 存 储 路 径 为 /usr/local/ 


hive/warehouse/hive/usr. 





hive» create table if not exists hive.usr (id bigint,name string,age int) 


> location'/usr/local/hive/warehouse/hive/usr'; 





(3) 在 hive 数据 库 中 创建 外 部 表 usr. i 3 个 属性 : id、name、age。 可 以 读 取 路 径 /usr/ 
local/data F LA“ ,分 隔 的 数据 。 





hive»create external table if not exists hive.usr (id bigint,name string,age int) 
> row format delimited fields terminated by ',"' 
»location'/usr/local/data'; 











(4) 在 hive 数据 库 中 创建 分 区 表 usr, 含 3 个 属性 : id, name, age. V8 ff E 4p IX 
段 sex。 





hive»create table hive.usr (id bigint,name string,age int) partition by (sex boolean); 
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(5) 在 hive 数据 库 中 创建 分 区 表 usrl, 它 通过 复制 表 usr 得 到 。 





hive» use hive; 








hive> create table if not exists usrl like usr; 





3. 创建 视图 
创建 视图 little_usr, 只 包含 usr 表 中 的 id age 属性 。 








hive> create view little usr as select id,age from usr; 








8.3.2 删除 数据 库 、 表 、 视 图 


1. 删除 数据 库 
(1) 删除 数据 库 hive, 如 果 不 存在 会 出 现 警 告 。 





hive» drop database hive; 





(2) 删除 数据 库 hive, 因 为 有 if exists 关键 字 , 即 使 不 存在 也 不 会 抛 出 异常 。 





hive> drop database if exists hive; 





G) 删除 数据 库 hive, 加 上 cascade 关键 字 , 可 以 删除 当前 数据 库 和 该 数据 库 中 的 表 。 











hive> drop database if exists hive cascade; 





2 删除 表 


删除 表 usr, 如 果 是 内 部 表 , 元 数据 和 实际 数据 都 会 被 删除 ;如 果 是 外 部 表 ,只 删除 元 数 
据 , 不 删除 实际 数据 。 





hive> drop table if exists usr; 











3. 删除 视图 
删除 视图 little_usr。 





hive> drop view if exists little usr; 
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8.3.3 ”修改 数据 库 、 表 、 视 图 


1 修改 数据 库 
为 hive 数据 库 设 置 dbproperties 键 值 对 属性 值 来 描述 数据 库 属性 信息 。 





hive»alter database hive set dbproperties ('edited-by'- 'lily'); 











2 修改 表 
COD 重 命名 表 usr JJ user, 





hive>alter table usr rename to user; 





(2) 为 表 usr 增加 新 分 区 。 





hive>alter table usr add if not exists partition (age- 10); 
hive»alter table usr add if not exists partition (age- 20); 





(3) 删除 表 usr 中 的 分 区 。 





hive> alter table usr drop if exists partition (age- 10); 





(4) 把 表 usr 中 列 名 name 修改 为 username, 并 把 该 列 置 于 age 列 后 。 





hive»alter table usr change name username string after age; 





(5) 在 对 表 usr 分 区 字段 之 前 ,增加 一 个 新 列 sex。 





hive>alter table usr add columns (sex boolean); 





C6) 删除 表 usr 中 所 有 字段 并 重新 指定 新 字段 newid, newname, newage, 





hive>alter table usr replace columns (newid bigint,newname string,newage int); 





CD 为 usr 表 设 置 tblproperties 键 值 对 属性 值 来 描述 表 的 属性 信息 。 





hive»alter table usr set tblproperties ('notes'- 'the columns in usr may be null except id'); 











3. 修改 视图 
修改 little_usr 视图 元 数据 中 的 tblproperties 属性 信息 。 
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hive> alter view little usr set tblproperties ('create at'= 'refer to timestamp'); 








8.3.4 SAARE RAA 
1 查看 数据 库 
CD 查看 Hive 中 包含 的 所 有 数据 库 。 





hive» show databases; 





(2) 查看 Hive 中 以 h 开头 的 所 有 数据 库 。 





hive> show databases like'h.* '; 











2 查看 表 和 视图 
(1) 查看 数据 库 hive 中 的 所 有 表 和 视图 。 





hive>use hive; 


hive> show tables; 





(2) 查看 数据 库 hive 中 以 u 开头 的 所 有 表 和 视图 。 





hive> show tables in hive like'u. * '; 











8.3.5 ”描述 数据 库 、 表 、 视 图 
1 描述 数据 库 
(1) 查看 数据 库 hive 的 基本 信息 ,包括 数据 库 中 文件 的 位 置信 息 等 。 





hive> describe database hive; 





(2) 查看 数据 库 hive 的 详细 信息 ,包括 数据 库 的 基本 信息 及 属性 信息 等 。 





hive> describe database extended hive; 











2 描述 表 和 视图 
(1) 查看 表 usr 和 视图 little_usr 的 基本 信息 ,包括 列 信 息 等 。 





hive> describe hive.usr; 


hive> describe hive.little usr; 
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(2) 查看 表 usr 和 视图 little_usr 的 详细 信息 ,包括 列 信息 、 位 置信 息 、 属 性 信息 等 。 





hive> describe extended hive.usr; 


hive» describe extended hive.little usr; 





(3) 查看 表 usr 中 列 id 的 信息 。 





hive>describe extended hive.usr.id; 











8.3.6 向 表 中 装载 数据 
CD. 把 目录 Vusr/local/data 下 的 数据 文件 中 的 数据 装载 进 usr 表 并 覆盖 原 有 数据 。 





hive» load data local inpath '/usr/local/data' overwrite into table usr; 





(2) 把 目录 Vusr/local/data 下 的 数据 文件 中 的 数据 装载 进 usr 表 不 覆盖 原 有 数据 。 








hive» load data local inpath '/usr/local/data' into table usr; 








(3) 把 分 布 式 文件 系统 目录 'hdfs://master_server/usr/local/data 下 的 数据 文件 数据 装 
载 进 usr 表 并 覆盖 原 有 数据 。 








hive> load data inpath 'hdfs://master server/usr/local/data' overwrite into table usr; 








8.3.7 查询 表 中 数据 
该 命令 和 SQL 语句 完全 相同 ,这 里 不 再 袭 述 。 
8.3.8 向 表 中 插入 数据 或 从 表 中 导出 数据 
(1) 向 表 usrl 中 插入 来 自 usr 表 的 数据 并 覆盖 原 有 数据 。 





hive> insert overwrite table usrl 


»select * from usr where age- 10; 





(2) 向 表 usrl 中 插入 来 自 usr 表 的 数据 并 追加 在 原 有 数据 后 。 





hive» insert into table usrl 


»select * from usr where age- 10; 
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8.4 Hive 应 用 实例 : WordCount 




















现在 通过 一 个 实例 一 一 词 频 统计 ,来 深入 学 习 一 下 Hive 的 具体 使 用 。 首 先 需要 创建 
一 个 需要 分 析 的 输入 数据 文件 ;然后 编写 HiveQL 语句 实现 WordCount 算法 ,在 Linux 下 
实现 步骤 如 下 。 

(1) 创建 input 目录 ,其 中 input 为 输入 目录 ,命令 如 下 : 





$cd /usr/local/hadoop 
Smkdir input 





(2) f£ input 文件 夹 中 创建 两 个 测试 文件 filel. txt 和 file2. txt, 命 令 如 下 : 





$cd /usr/local/hadoop/input 
$echo "hello world"> filel.txt 


$echo "hello hadoop"> file2.txt 





(3) 进入 hive 命令 行 界面 ,编写 HiveQL 语句 实现 WordCount 算法 ,命令 如 下 : 





$hive 
hive» create table docs (line string); 
hive» load data inpath 'input' overwrite into table docs; 
hive> create table word count as 
> select word, count (1) as count from 
> (select explode (split (line, ''))as word from docs) w 
> group by word 


>order by word; 











执行 完成 后 ,用 select 语句 查看 运行 结果 ,如 图 8-1 所 示 。 





图 8-1 WordCount 算法 统计 结果 查询 


8.5 Hive 编程 的 优势 


词 频 统计 算法 是 最 能 体现 MapReduce 思想 的 算法 之 一 ,因此 ,这 里 以 WordCount 实例 
为 例 ,简单 比较 一 下 其 在 MapReduce 中 的 编程 实现 和 在 Hive 中 编程 实现 的 不 同 点 。 首 先 ， 
采用 Hive 实现 WordCount 算法 需要 编写 较 少 的 代码 量 。 在 MapReduce 中 , WordCount 
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类 由 63 行 Java 代码 编写 而 成 (该 代码 可 以 通过 下 载 Hadoop 源码 后 ,在 以 下 目录 : % 
HADOOP_HOME,/share/hadoop/mapreduce/hadoop-mapreduce-examples-2. 7. 1. jar fu P 
找到 ) ,而 在 Hive 中 只 需要 编写 7 行 代码 ;其 次 ,在 MapReduce 的 实现 中 ,需要 进行 编译 生 
成 jar 文件 来 执行 算法 ,而 在 Hive 中 则 不 需要 ,虽然 HiveQL 语句 的 最 终 实现 需要 转换 为 
MapReduce 任务 来 执行 ,但 是 这 些 都 是 由 Hive 框架 自动 完成 的 ,用 户 不 需要 了 解 具体 实现 
细节 。 

由 上 可 知 , 采 用 Hive 实现 最 大 的 优势 是 ,对 于 非 程 序 员 ,不 用 学 习 编 写 复 杂 的 Java 
MapReduce 代码 了 ,只 需要 用 户 学 习 使 用 简单 的 HiveQL 就 可 以 了 ,而 这 对 于 有 SQL 基础 
的 用 户 而 言 是 非常 容易 的 。 


8.6 ”本章 小 结 


Hive 是 一 个 构建 于 Hadoop 顶层 的 数据 仓库 工具 ,主要 用 于 对 存储 在 Hadoop 文件 中 
的 数据 集 进行 数据 整理 ,特殊 查询 和 分 析 人 处理 。Hive 在 某 种 程度 上 可 以 看 作 是 用 户 编程 接 
口 ,本 身 不 存储 和 处 理 数据 ,依赖 HDFS 存储 数据 ,依赖 MapReduce 处 理 数 据 。 

本 章 介绍 了 Hive 的 安装 方法 ,包括 下 载 安装 文件 .配置 环境 变量 修改 配置 文件 、 安 装 
并 配置 MySQL 等 。Hive 支持 关系 数据 库 中 的 大 多 数 基 本 数据 类 型 ,同时 Hive 还 支持 关 
系数 据 库 中 不 常 出 现 的 3 种 集合 数据 类 型 。Hive 提供 了 类 似 SQL 的 语句 一 一 HiveQL ,可 
以 很 方便 地 对 Hive 进行 操作 ,包括 创建 ,修改 、 删 除数 据 库 、 表 、 视 图 等 。Hive 的 一 大 突出 
优点 是 ,可 以 把 查询 语句 自动 转化 成 相应 的 MapReduce 任务 去 执行 得 到 结果 ,这 样 就 可 以 
大 大 节省 用 户 的 编程 工作 量 ,本 章 最 后 通过 一 个 WordCount 应 用 实例 ,充分 展示 了 Hive 的 
这 一 优点 。 





Spark 的 安装 和 基础 编程 


Spark 最 初 诞生 于 美国 加 州 大 学 伯克利 分 校 的 AMP 实验 室 , 是 一 个 可 应 用 于 大 规模 数 
据 处 理 的 分 布 式 计算 框架 ,如今 是 Apache 软件 基金 会 下 的 顶级 开源 项 目 之 一 。Spark 可 以 
独立 安装 使 用 ,也 可 以 和 Hadoop 一 起 安装 使 用 。 本 书 采 用 和 Hadoop 一 起 安装 使 用 ,这 
FÉ ,就 可 以 让 Spark 使 用 HDFS 存 取 数 据 。 

本 章 首先 介绍 Spark 的 安装 方法 ;然后 介绍 如 何 使 用 Spark Shell 编写 运行 代码 ;最 后 
介绍 如 何 使 用 Scala 语言 和 Java 语言 编写 Spark 独立 应 用 程序 。 


9.1 基础 环境 


本 书 采用 如 下 环境 配置 。 

(1) Linux 系统 : Ubuntu 16. 04。 

(2) Hadoop: 2.7.1 版 本 。 

(3) JDK: 1.7 UE. 

(4) Spark: 1.6.2 版 本 。 

请 参照 第 2 章 完 成 Linux 系统 的 安装 ,参照 第 3 章 完成 Hadoop 和 JDK 的 安装 。 

Spark 目前 已 经 更 新 到 2.0 以 上 版 本 ,但 是 ,在 Spark 2.0 以 上 版 本 中 ,一 些 功能 组 件 比 
如 Structured Streaming 还 不 是 正式 版 ,因此 ,建议 初学 者 学 习 比 较 成 熟 的 Spark 1. 6. 2 版 
本 ,本 书 采用 1.6.2 版 本 。 


9.2 安装 Spark 


Spark 的 部 署 模式 主要 有 4 种 : Local 模式 (单机 模式 ) Standalone 模式 (使 用 Spark A 
带 的 简单 集群 管理 器 )、YARN 模式 (使 用 YARN 作为 集群 管理 器 ) 和 Mesos 模式 (使 用 
Mesos 作为 集群 管理 器 ) 。 这 里 介绍 Local 模式 (单机 模式 ) 的 Spark 安装 。 


9.2.1 下 载 安装 文件 


登录 Linux 系统 (本 书 统一 采用 hadoop 用 户 登 录 ), 打 开 浏 览 器 ,访问 Spark 官网 
(http://spark. apache. org/downloads. html)( 见 图 9-1) ,选择 1.6.2 版 本 。 

关于 Spark 官网 下 载 页 面 中 的 Choose a package type, 这 里 补充 说 明 如 下 。 

(1) Source code: Spark 源码 ,需要 编译 才能 使 用 。 
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Our latest stable version is Apache Spark 1.6.2, released on June 25, 2016 (release notes) (git tag) 


Eo EHI Iis] 
1 Choose a Spark release: [1.62 (Jun252016) =} 选择 最 新 版 即 可 
2. Choose a package type: 
Pre-build with user-provided Hadoop [can use with most Hadoop distributions] Y 
3 Choose a donload pe [Sis Apache imr 


4. Download Spark: spark-1.6.2-bin-without-hadoop 惟一 一 一 单 击 此 处 下 载 





5. Verify this release using the 1.6.2 signatures and checksums. 
Note: Scala 2.11 users should download the Spark source package and build with Scala 2.11 support. 








图 9-1 Spark 官网 下 载 页 面 


(2) Pre-build with user-provided Hadoop: 属 于 Hadoop free 版 ,可 应 用 到 任意 Hadoop 
版 本 。 

(3) Pre-build for Hadoop 2. 6 and later: 基 于 Hadoop 2. 6 的 预先 编译 版 ,需要 与 本 机 
安装 的 Hadoop 版 本 对 应 ,可 选 的 还 有 Hadoop 2. 6, Hadoop 2. 4, Hadoop 2. 3, Hadoop 1. 
x\CDH4。 

由 于 我 们 已 经 自己 安装 了 Hadoop, 所 以 ,在 Choose a package type 后 面 需要 选择 Pre- 
build with user-provided Hadoop [can use with most Hadoop distributions], 然后 单 击 
Download Spark 后 面 的 spark-1. 6. 2-bin-without-hadoop. tgz 下 载 即 可 。 下 载 的 文件 ,默认 
会 被 浏览 器 保存 在 “/home/hadoop/ 下 载 ” 目 录 下 。 

除了 到 Spark 官网 下 载 安装 文件 ,也 可 以 直接 到 本 书 官网 的 “下 载 专 区 ”中 下 载 Spark 
安装 文件 , 单 击 进入 下 载 专区 后 ,在 “软件 ”这 个 文件 夹 中 ,找到 文件 spark-1. 6. 2-bin- 
without-hadoop. tgz, 下 载 到 本 地 ,保存 到 Linux 系统 的 /home/hadoop/ 下 载 " 目 录 下 。 

下 载 完 安装 文件 以 后 ,需要 对 文件 进行 解压 。 按 照 Linux 系统 使 用 的 默认 规范 ,用 户 安 
装 的 软件 一 般 都 是 存放 在 /usr/local/ 目 录 下 。 使 用 hadoop 用 户 登 录 Linux 系统 ,打开 一 个 
终端 ,执行 如 下 命令 : 





$sudo tar -zxf ~/ 下 载 /spark- 1.6.2-bin-without-hadoop.tgz -C /usr/local/ 

$cd /usr/local 

$sudo mv ./spark-1.6.2- bin- without- hadoop/ ./spark 

$sudo chown -R hadoop:hadoop ./spark #hadoop 是 当前 登录 Linux 系统 的 用 户 名 











9.2.2 配置 相关 文件 


安装 文件 解压 缩 以 后 ,还 需要 修改 Spark 的 配置 文件 spark-env. sh。 首 先 可 以 复制 一 
份 由 Spark 安装 文件 自 带 的 配置 文件 模板 ,命令 如 下 : 





$cd /usr/local/spark 
$cp ./conf/spark- env.sh.template ./conf/spark- env.sh 











然后 使 用 vim 编辑 器 打开 spark-env. sh 文件 进行 编辑 ,在 该 文件 的 第 一 行 添 加 以 下 配 
Bil: 
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export SPARK DIST CLASSPATH- $ (/usr/local/hadoop/bin/hadoop classpath) 





有 了 上 面 的 配置 信息 以 后 ,Spark 就 可 以 把 数据 存储 到 Hadoop 分 布 式 文件 系统 HDFS 
中 ,也 可 以 从 HDFS 中 读 取 数据 。 如 果 没 有 配置 上 面 的 信息 ,Spark 就 只 能 读 写本 地 数据 ， 
无 法 读 写 HDFS 中 的 数据 。 

配置 完成 后 就 可 以 直接 使 用 Spark, 不 需要 像 Hadoop 那样 运行 启动 命令 。 通 过 运行 
Spark 自 带 的 实例 ,可 以 验证 Spark 是 否 安装 成 功 ,命令 如 下 : 





$cd /usr/local/spark 
$bin/run- example SparkPi 











执行 时 会 输出 很 多 屏幕 信息 ,不 容易 找到 最 终 的 输出 结果 ,为 了 从 大 量 的 输出 信息 中 快 
速 找到 我 们 想 要 的 执行 结果 ,可 以 通过 grep 命令 进行 过 滤 : 





$bin/run- example SparkPi 2> &1 | grep "Pi is roughly" 











上 面 命令 涉及 Linux Shell 中 关于 管道 的 知识 ,可 以 查看 网 络 资料 学 习 管 道 命令 的 用 
法 ,这 里 不 再 袭 述 。 过 滤 后 的 运行 结果 如 图 9-2 所 示 , 可 以 得 到 x 的 5 位 小 数 近 似 值 。 


hadoop@dblab:/usr/local/spark 
文件 (E) 编辑 (E) 查看 (V) 搜索 (S) SWT) WRH) 


[hadoopedbtab spark]$ ./bin/run-example SparkPi 2»&1 | grep "Pi is roughly" 
Pi is roughly 3.14588 
[hadoopedblab spark]$ 





图 9-2 SparkPi 程序 运行 结果 


9.3 使 用 Spark Shell 编写 代码 


学 习 Spark 程序 开发 ,建议 首先 通过 Spark Shell 进行 交互 式 编程 ,加 深 Spark 程序 开 
发 的 理解 。Spark Shell 提供 了 简单 的 方式 来 学 习 API, 并 且 提 供 了 交互 的 方式 来 分 析 数 
据 。 可 以 输入 一 条 语句 ,Spark Shell 会 立即 执行 语句 并 返回 结果 ,这 就 是 人 们 所 说 的 交互 
式 解释 器 (Read-Eval-Print Loop, REPL) , 它 为 我 们 提供 了 交互 式 执行 环境 ,表达 式 计 算 完 
成 就 会 输出 结果 ,而 不 必 等 到 整个 程序 运行 完毕 ,因此 可 即时 查看 中 间 结 果 , 并 对 程序 进行 
修改 ,这 样 可 以 在 很 大 程度 上 提升 开发 效率 。Spark Shell 支持 Scala 和 Python, 这 里 使 用 
Scala 来 进行 介绍 。Scala 是 一 门 现代 的 多 范式 编程 语言 , 旨 在 以 简练 .优雅 及 类 型 安全 的 方 
式 来 表达 常用 编程 模式 , 它 平滑 地 集成 了 面向 对 象 和 函数 语言 的 特性 ,运行 在 JVM(Java 虚 
拟 机 ) 上 ,并 兼容 现 有 的 Java 程序 。 


9.3.1 启动 Spark Shell 
可 以 通过 下 面 命令 启动 Spark Shell 环境 : 


{mm 
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$cd /usr/local/spark 
$./bin/spark- shell 











进入 scala ip S TER AE ARS . in Él 9-3 所 示 。 





启动 spark-shell 后 ,就 会 


Welcome to 


version 1.6.2 


Using Scala version 2.10.5 (OpenJDK 64-Bit rver VM, Java 1.8.0_111) 
Type in expressions to have them evaluated. 
elp for more information. 
t available as 
text available as sql 


TEER | 





图 9-3 Spark Shell 模式 





可 以 在 里 面 输入 Scala 代码 进行 调试 了 。 例 如 ,下 面 在 Scala 命令 提示 符 scalar 
面 输入 一 个 表达 式 8* 2 十 5, 然 后 按 Enter 键 ,就 会 立即 得 到 结果 : 





scala»8* 2+5 


res0: Int=21 





最 后 可 以 使 用 命令 “ :quit” 退 出 Spark Shell, 如 下 所 示 : 





scala» :quit 





或 者 ,也 可 以 直接 使 用 Ctrl 十 D 键 ,退出 Spark Shell 
9.3.2 读 取 文件 
1. 读 取 本 地 文件 


打开 一 个 Linux 终端 ,在 终 





中 输入 以 下 命令 启动 Spark Shell: 





$cd /usr/local/spark 
$./bin/spark- shell 











启动 成 功 后 ,就 进入 了 scala 二 命令 提示 符 状 态 , 我 们 称 这 个 窗口 为 “Spark Shell 窗口 ”。 
现在 开始 读 取 Linux 本 地 文件 系统 中 的 文件 /usr/local/spark/README. md, 并 显示 
第 一 行 的 内 容 , 命 令 如 下 : 





scala> val textFile- sc.textFile ("file:///usr/local/spark/README .md") 


scala» textFile.first() 
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执行 上 面 语句 后 ,就 可 以 看 到 Linux 本 地 文件 系统 的 README. md 的 第 一 行内 容 了 ， 
EJ # Apache Spark. 


2. iE BU HDFS 文 件 


前 面 已 经 安装 了 Hadoop 和 Spark, 如 果 Spark 不 使 用 HDFS ,那么 就 不 用 启动 Hadoop 
也 可 以 正常 使 用 Spark。 如 果 在 使 用 Spark 的 过 程 中 需要 用 到 HDFS, 就 要 首先 启动 
Hadoop。 因 此 ,在 Spark 读 取 HDFS 文件 之 前 ,需要 首先 启动 Hadoop ,请 新 建 一 个 Linux 
终端 ,执行 如 下 命令 : 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 











现在 可 以 把 本 地 文件 /usr/local/spark/README. md 上 传 到 HDFS 的 /user/hadoop 
目录 下 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs - put /usr/local/spark/README.md . 











上 传 成 功 以 后 ,可 以 使 用 cat 命令 输出 HDFS 中 的 README. md 中 的 内 容 ,命令 
如 下 : 





$./bin/hdfs dfs - cat README .md 











可 以 看 到 ,该 命令 执行 以 后 ,屏幕 上 会 显示 整个 README. md 的 内 容 。 
现在 请 切换 回 到 之 前 已 经 打开 的 Spark Shell 窗口 ,编写 语句 从 HDFS 中 加 载 
README. md 文件 ,并 显示 第 一 行文 本 内 容 : 





scala> val textFile= sc.textFile ("hdfs://1localhost:9000/user/hadoop/README .md") 
scala> textFile.first () 











执行 上 面 语句 后 ,就 可 以 看 到 HDFS 文件 系统 中 (不 是 本 地 文件 系统 ) 的 README. 
md 的 第 一 行内 容 了 , 即 # Apache Spark. 

需要 注意 的 是 ,sc. textFile("hdfs://localhost:9000/user/hadoop/README. md") 中 ， 
hdfs://localhost:9000/ 是 前 面 第 3 章 介绍 Hadoop 安装 内 容 时 确定 下 来 的 端口 地 址 9000。 
实际 上 ,也 可 以 省 略 不 写 , 如 下 3 条 语句 都 是 等 价 的 : 





scala> val textFile- sc.textFile ("hdfs://localhost:9000/user/hadoop/ README.md") 
scala> val textFile=sc.textFile("/user/hadoop/ README.md") 
scala> val textFile=sc.textFile ("README .md") 
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9.3.3 编写 词 频 统计 程序 


在 第 7 章 中 曾经 介绍 过 使 用 MapReduce 编写 词 频 统 计 程 序 的 方法 ,实际 上 ,Spark 可 
以 更 加 快捷 高 效 地 完成 词 频 统计 功能 。 这 里 介绍 如 何 对 本 地 文件 /usr/local/spark/ 
README. md 进行 词 频 统计 ,针对 HDFS 文件 的 词 频 统计 也 是 类 似 的 。 

前 面 已 经 打开 了 多 个 Linux 终端 ,现在 切换 回 到 Spark Shell 窗口 ,在 scala 之 命令 提示 
符 后 面 输入 以 下 代码 : 





scala> val textFile=sc.textFile("file:///usr/local/spark/ README.md") 

Scala» val wordCount- textFile. flatMap (line= > line. split ("")).map (word= > (word, 1)). 
reduceByKey ( (a, b)-»a*b) 

scala» wordCount .collect () 











下 面 简单 解释 一 下 上 面 的 语句 。textFile 包含 多 行文 本 内 容 ,textFile. flatMap(Cline— > 
line. split("")) 会 遍历 textFile 中 的 每 行文 本 内 容 , 当 遍历 到 其 中 一 行文 本 内 容 时 ,会 把 文 
本 内 容 赋值 给 变量 line, 并 执行 Lamda 表达 式 line — — line. split(""), line— > line. split 
("") 是 一 个 Lamda 表达 式 ,左边 表示 输入 参数 ,右边 表示 函数 里 面 执行 的 处 理 迎 辑 , 这 里 执 
行 line. splitC" ") ,也 就 是 针对 line 中 的 一 行文 本 内 容 , 采 用 空格 作为 分 隔 符 进行 单词 切 分 ， 
从 一 行文 本 切 分 得 到 很 多 个 单词 构成 的 单词 集合 。 这 样 ,对 于 textFile 中 的 每 行文 本 ,都 会 
使 用 Lamda 表达 式 得 到 一 个 单词 集合 ,最 终 , 对 多 行文 本 使 用 Lamda 表达 式 ,就 得 到 多 个 
单词 集合 。textFile. flatMap() 操 作 就 把 这 多 个 单词 集合 “ 拍 扁 " 得 到 一 个 大 的 单词 集合 。 

然后 针对 大 的 单词 集合 ,执行 mapO 〇 操作 ,也 就 是 map(word 二 二 (word,1)) ,map 操作 
会 遍历 这 个 集合 中 的 每 个 单词 , 当 遍 历 到 其 中 一 个 单词 时 ,就 把 当前 这 个 单词 赋值 给 变量 
word, 并 执行 Lamda 表达 式 word 王 二 (word,1) ,这 个 Lamda 表达 式 的 含义 是 ,word 作为 
函数 的 输入 参数 ,然后 执行 函数 处 理 罗 辑 , 这 里 会 执行 (word,1) ,也 就 是 针对 输入 的 word, 
构建 得 到 一 个 映射 ( 即 Map ,是 一 种 数据 结构 ) ,这 个 映射 的 key 是 word. value 是 1( 表 示 该 
单词 出 现 一 次 ) 。 

程序 执行 到 这 里 ,已 经 得 到 一 个 映射 (Map) ,这 个 映射 中 包含 了 很 多 个 (key, value). 
最 后 ,针对 这 个 映射 ,执行 reduceByKey((a, b) 王 二 a 十 b) 操 作 , 这 个 操作 会 把 映射 中 的 所 
有 (key,value) 按 照 key 进行 分 组 ,然后 使 用 给 定 的 函数 (这 里 就 是 Lamda 表达 式 : (a.b) => 
atb) ,对 具有 相同 的 key 的 多 个 value 进行 聚合 操作 ,返回 聚合 后 的 (key, value)。 例 如 
("hadoop",1) 和 ("hadoop",1), 具 有 相同 的 key, 进 行 聚合 以 后 就 得 到 ("hadoop" ,2) ,这 样 
就 计算 得 到 了 这 个 单词 的 词 频 。 


9.4 编写 Spark 独立 应 用 程序 


这 里 通过 一 个 简单 的 应 用 程序 SimpleApp 来 演示 如 何 通过 Spark API 编写 一 个 独立 

应 用 程序 。 使 用 Scala 语言 编写 的 程序 需要 使 用 sbt 进行 编译 打包 ;相应 地 ,使 用 Java 语言 

写 的 Spark 程序 需要 使 用 Maven 进行 编译 打包 ;而 使 用 Python 语言 编写 的 Spark 程序 
则 可 以 通过 spark-submit 直接 提交 。 




















第 9 章 “Spark 的 安装 和 基础 编程 


9.4.1 用 Scala 语言 编写 Spark 独立 应 用 程序 


1 安装 sbt 


使 用 Scala 语言 编写 的 Spark 程序 ,需要 使 用 sbt 进行 编译 打包 。Spark 中 没有 自 带 
sbt, 需 要 单独 安装 。 可 以 到 下 面 地 址 下 载 sbt 安装 文件 : 





https://repo.typesafe.com/typesafe/ivy- releases/org.scala- sbt/sbt- launch/0.13.11/sbt- 








launch.jar 





或 者 也 可 以 到 本 书 官网 的 “下 载 专区 ”下载 sbt 安装 文件 , 单 击 进入 下 载 专区 后 ,在 “ 软 
件 ” 这 个 文件 夹 中 ,找到 文件 sbt-launch. jar. 下载 到 本 地 ,保存 到 Linux 系统 的 “/home/ 
hadoop/ 下 载 ”目录 下 。 

这 里 我 们 把 sbt 安装 到 /usr/local/sbt 目录 下 ,使 用 hadoop 用 户 登录 Linux 系统 ,新 建 
一 个 终端 ,在 终端 中 执行 如 下 命令 : 





$sudo mkdir /usr/local/sbt 

$sudo chown- R hadoop /usr/local/sbt # 此 处 的 hadoop 是 Linux 系 统 当 前 登录 用 户 名 
$cd /usr/local/sbt 

$cp ~/ 下 载 /sbt- launch.jar. 





接 下 来 使 用 vim 编辑 器 在 /usr/local/sbt 中 创建 sbt 脚本 ,命令 如 下 : 





$vim ./sbt 











在 sbt 脚本 文件 中 ,添加 如 下 内 容 : 





#!/bin/bash 

SBT OPTS- "- Xms3512M -Xmx1536M -Xss1M - XX:* CMSClassUnloadingEnabled -XX: 
MaxPermSize- 256M" 

java $SBT OPTS- jar 'dirname $0'/sbt- launch.jar "$e" 





保存 sbt 脚本 文件 后 退出 vim 编辑 器 。 然 后 为 sbt 脚本 文件 增加 可 执行 权限 ,命令 
如 下 : 





$chmod ut x ./sbt 





最 后 运行 如 下 命令 ,检验 sbt 是 否 可 用 : 





$./sbt sbt- version 











确保 计算 机 处 于 联网 状态 ,首次 运行 该 命令 ,会 长 时 间 处 于 “Getting org. scala-sbt sbt 
0.13.11…” 的 下 载 状态 .要 耐心 等 待 。 如 果 长 时 间 ( 比 如 半 个 小 时 ) 没 有 进度 ,可 能 是 网 络 问 
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题 导致 安装 失败 ,需要 








新 安装 。 安 装 成 功 以 后 ,应 该 会 显示 类 似 图 9-4 所 示 的 信息 。 





图 9-4 sbt 安装 成 功 后 的 信息 


2 编写 Scala 应 用 程序 代码 
在 终端 中 执行 如 下 命令 创建 一 个 文件 夹 sparkapp 作为 应 用 程序 根 目录 : 














$cd~ # 进 入 用 户主 文件 夹 

Smkdir ./sparkapp # 创 建 应 用 程序 根 目录 

$mkdir -p ./sparkapp/src/main/scala # 创 建 所 需 的 文件 夹 结构 

需要 注意 的 是 ,为 了 能 够 使 用 sbt 对 Scala 应 用 程序 进行 编译 打包 ,需要 把 应 用 程序 代 





码 存放 在 应 用 程序 根 目录 下 的 src/main/scala 目录 下 。 下 面 使 用 vim 编辑 器 在 一 / 
sparkapp/src/main/scala 下 建立 一 个 名 为 SimpleApp. scala 的 Scala 代码 文件 ,命令 如 下 : 





$cd ~ 
$vim ./sparkapp/src/main/scala/SimpleApp.scala 





然后 在 SimpleApp. scala 代码 文件 中 输入 以 下 代码 : 





/* SimpleApp.scala * / 

import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. 
import org.apache.spark.SparkConf 


object SimpleApp ( 
def main(args: Array[String]) ( 

val logFile =" file:///usr/local/spark/README. md" //Should be some file in 
your system 

val conf-new SparkConf () .setAppName ("Simple Application") 

val sc= new SparkContext (conf) 

val logData- sc.textFile (logFile, 2) .cache () 

valnumAs- logData.filter (line=> line.contains ("a")) .count () 

val numBs- logData.filter (line=> line.contains ("b")) .count () 

println("Lines with a: $s, Lines with b: $s".format (numAs, numBs)) 











上 述 代码 也 可 以 直接 到 本 书 官网 “下载 专 区 ”下 载 , 位 于 “代码 ”目录 的 “第 9 章 ? 子 目录 
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下 ,文件 名 是 SimpleApp. scala。 这 段 代码 的 功能 是 ,计算 /usr/local/spark/README 文件 
中 包含 "a" 的 行 数 和 包含 "b" 的 行 数 。 不 同 于 Spark Shell. 独立 应 用 程序 需要 通过 val sc 一 
new SparkContext(conf) 初 始 化 SparkContext。 


3. 用 sbt 打 包 Scala 应 用 程序 


SimpleApp. scala 程序 依赖 于 Spark API, 因 此 ,需要 通过 sbt 进行 编译 打包 。 首 先 需要 
使 用 vim 编辑 器 在 一 /sparkapp 目录 下 新 建文 件 simple. sbt, 命 令 如 下 : 








$cd~ 
$vim ./sparkapp/simple.sbt 











simple. sbt 文件 用 于 声明 该 独立 应 用 程序 的 信息 以 及 与 Spark 的 依赖 关系 ,需要 在 
simple. sbt 文件 中 输入 以 下 内 容 : 





name := "Simple Project" 
version :-"1.0" 
scalaVersion :- "2.10.5" 


libraryDependencies*- "org.apache.spark" $$"spark- core" $"1.6.2" 











上 述 代 码 也 可 以 直接 到 本 书 官网 “下 载 专 区 ”下 载 ,位 于 “代码 ”目录 的 “第 9 章 ? 子 目录 
下 ,文件 名 是 simple. sbt。 
为 了 保证 sbt 能 够 正常 运行 , 先 执行 如 下 命令 检查 整个 应 用 程序 的 文件 结构 : 





$cd ~/sparkapp 
$find. 





文件 结构 应 该 是 类 似 如 下 所 示 的 内 容 : 





./src 

-/src/main 

-/src/main/scala 
-/src/main/scala/SimpleApp.scala 
./simple.sbt 











接 下 来 可 以 通过 如 下 代码 将 整个 应 用 程序 打包 成 JAR( 首 次 运行 时 ,sbt 会 自动 下 载 相 
关 的 依赖 包 ) : 





$cd ~/sparkapp # 一 定 把 这 个 目录 设置 为 当前 目录 
$/usr/local/sbt/sbt package 











对 于 刚刚 安装 的 Spark 和 sbt 而 言 , 第 一 次 执行 上 面 命令 时 ,系统 会 自动 从 网 络 上 下 载 
各 种 相关 的 文件 ,因此 上 面 执行 过 程 需 要 消耗 几 分 钟 .后 面 如 果 再 次 执行 sbt package 命令 ， 
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速度 


就 会 快 很 多 ,因为 不 再 需要 下 载 相关 文件 。 执 行 上 述 命令 后 ,屏幕 上 会 返回 如 下 类 似 


信息 : 








OpenJDK 64- Bit Server VM warning: ignoring option MaxPermSize=256M; support was removed in 
8.0 

[info] Set current project to Simple Project (in build file:/home/hadoop/sparkapp/) 

[info] Updating (file: /home/hadoop/sparkapp/]SimpleApp:* 

[info] Resolving org.fusesource.jansifjansi;1.4 + 

[info] downloading https: //repol.maven.org/maven2/org/apache/avro/avro/1l.7.7/avro- 1.7.7. 
jar … 

[info] [SUCCESSFUL ] org.apache.avrofavro;1.7.7!avro.jar (118465ms) 

[info] Done updating. 

[info] Compiling 1 Scala source to /home/hadoop/sparkapp/target/scala- 2.10/classes… 
[info] Packaging /home/hadoop/sparkapp/target/scala- 2.10/simple- project 2.10-1.0.jar … 
[info] Done packaging. // 注 意 ,屏幕 上 返回 这 条 信息 表示 打包 成 功 

[success] Total time: 158 s, completed 2017- 1- 31 15:25:15 








生成 的 JAR (9 f FLOS — /sparkapp/target/scala-2. 10/simple-project. 2. 10-1. 0. jar, 
4 通过 spark- submit 运行 程序 
可 以 将 生成 的 JAR 包 通 过 spark-submit 提交 到 Spark 中 运行 ,命令 如 下 : 








$/usr/local/spark/bin/spark- submit -- class "SimpleApp" ~/sparkapp/target/ 
scala-2.10/simple- project 2.10-1.0.jar 








上 面 命令 执行 后 会 输出 太 多 信息 ,可 以 不 使 用 上 面 命令 ,而 使 用 下 面 命令 运行 程序 ,这 


样 就 可 以 直接 得 到 想 要 的 结果 : 





$/usr/local/spark/bin/spark- submit -- class "SimpleApp" ~/sparkapp/target/ 
scala-2.10/simple- project 2.10-1.0.jar 2»&1 | grep "Lines with a:" 





最 终 得 到 的 结果 如 下 : 








Lines with a: 58，Lines with b: 26 
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.2 Ri Java 语言 编写 Spark 独立 应 用 程序 


1 安装 Maven 


Ubuntu 中 没有 自 带 安装 Maven ,需要 手动 安装 Maven。 可 以 访问 Maven 官网 下 载 安 


装 文件 ,下 载 地 址 如 下 : 








http://apache.fayea.com/maven/maven- 3/3.3.9/binaries/apache- maven- 3.3.9- bin.zip 
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或 者 ,也 可 以 访问 本 书 官网 的 “下 载 专区 ”进行 下 载 ,位 于 “软件 ”目录 下 ,文件 名 是 
apache-maven-3. 3. 9-bin. zip。 下 载 到 Maven 安装 文件 以 后 ,保存 到 “一 /下 载 ? 目 录 下 。 然 
后 可 以 选择 安装 在 /usr/local/maven 目录 中 ,命令 如 下 : 





$sudo unzip ~/ 下 载 /apache-maven- 3.3.9- bin.zip-d /usr/local 
$cd /usr/local 
$sudo mv apache- maven- 3.3.9/ ./maven 


$sudo chown -R hadoop ./maven 











2 编写 Java 应 用 程序 代码 


在 Linux 终端 中 执行 如 下 命令 ,在 用 户主 文件 夹 下 创建 一 个 文件 夹 sparkapp2 作为 应 
用 程序 根 目 录 : 





$cd ~ # 进 入 用 户主 文件 来 
$mkdir -p ./sparkapp2/src/main/java 











然后 使 用 vim 编辑 器 在 . / sparkapp2/src/main/java 目录 下 建立 一 个 名 为 SimpleApp. java 
的 文件 ,命令 如 下 : 





$vim ./sparkapp2/src/main/java/SimpleApp.java 











在 SimpleApp. java 文件 中 输入 如 下 代码 : 





/*** SimpleApp.java ***/ 
import org.apache.spark.api.java.* ; 
import org.apache.spark.api.java.function.Function; 
public class SimpleApp ( 
public static void main(String[] args) { 
String logFile- "file:///usr/local/spark/README.md"; //Should be some 
file in your system 
JavaSparkContext sc- new JavaSparkContext ("local", "Simple App", 
"file:///usr/local/spark/", new String[] ("target/simple- project 
-1.0.jar")); 
JavaRDD« String» logData- sc.textFile (logFile) .cache () ; 
long numAs- logData.filter (new Function« String, Boolean» () { 
public Boolean call (String s) ( return s.contains ("a"); } 
J).count () ; 
long numBs- logData.filter (new Function« String, Boolean» () { 
public Boolean call (String s) ( return s.contains ("b"); } 
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}) -count () ; 
System.out.println("Lines with a: "+numAs+", lines with b: "+ numBs) ; 











上 述 代码 也 可 以 直接 到 本 书 官网 下载 专区 ”下 载 ,位 于 “代码 ”目录 的 “第 9 章 子 目录 
下 ,文件 名 是 SimpleApp. java。 

该 程序 依赖 Spark Java API, 因 此 ,我 们 需要 通过 Maven 进行 编译 打包 。 需 要 使 用 vim 
编辑 器 在 一 /sparkapp2 目录 中 新 建文 件 pom. xml, 命 令 如 下 : 





$cd~ 
$vim ./sparkapp2/pom.xml 











然后 在 pom. xml 文件 中 添加 如 下 内 容 , 用 来 声明 该 独立 应 用 程序 的 信息 以 及 与 Spark 
的 依赖 关系 : 





<project> 
< groupId» edu.berkeley< /groupId» 
«artifactId» simple- project« /artifactId> 
<modelVersion> 4.0.0< /modelVersion> 
<name> Simple Project< /name> 
< packaging» jar< /packaging> 
« version» 1.0< /version> 
< repositories> 
«repository» 
«id» Akka repository« /id> 
«url»http://repo.akka.io/releases« /url» 
< /repository» 
< /repositories» 
< dependencies» 
X dependency» < !- - Spark dependency -一 > 
< groupId» org.apache.spark« /groupId» 
«artifactId» spark- core 2.10« /artifactId» 
«version» 1.6.2« /version» 
< /dependency» 
< /dependencies» 
< /project» 











该 文件 也 可 以 直接 到 本 书 官网 “下 载 专区 ”下 载 , 位 于 “代码 ”目录 的 “第 9 章 ” 子 目录 下 ， 
文件 名 是 pom. xml。 


3. 使 用 Maven 打包 Java 程序 
为 了 保证 Maven 能 够 正常 运行 , 先 执行 如 下 命令 来 检查 整个 应 用 程序 的 文件 结构 : 
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$cd ~/sparkapp2 
$find 





文件 结构 应 该 是 类 似 如 下 的 内 容 : 





./pom.xml 
s/src 
-/src/main 


-/src/main/java 








-/src/main/java/SimpleApp.java 





接 下 来 可 以 通过 如 下 代码 将 整个 应 用 程序 打包 成 JAR 包 ( 注 意 : 计算 机 需要 保持 连接 
网 络 的 状态 ,而 且 首 次 运行 打包 命令 时 , Maven 会 自动 下 载 依赖 包 , 需 要 消耗 几 分 钟 的 
时 间 ): 





$cd ~/sparkapp2 # 一 定 把 这 个 目录 设置 为 当前 目录 
$/usr/local/maven/bin/mvn package 











如 果 屏 幕 返回 如 下 信息 , 则 说 明生 成 JAR 包 成 功 : 





[INFO] Building jar: /home/hadoop/sparkapp2/target/simple- project- 1.0.jar 


[INFO] Total time: 4.665 s 
[INFO] Finished at: 2017- 01- 31T 15:57:09 08:00 
[INFO] Final Memory: 30M/72M 











4 通过 spark-submit 运行 程序 
最 后 可 以 将 生成 的 JAR 包 通 过 spark-submit 提交 到 Spark 中 运行 ,命令 如 下 : 





$/usr/local/spark/bin/spark- submit - -class "SimpleApp" ~/sparkapp2/target/ 
simple-project-1.0.jar 





上 面 命令 执行 后 会 输出 太 多 信息 ,可 以 不 使 用 上 面 命令 ,而 使 用 下 面 命令 运行 程序 ,这 
样 就 可 以 直接 得 到 想 要 的 结果 : 





$/usr/local/spark/bin/spark- submit —- class "SimpleApp" ~/sparkapp2/target/ 
simple-project-1.0.jar 2> &1 | grep "Lines with a" 
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最 终 得 到 的 结果 如 下 : 











Lines with a: 58, Lines with b: 26 





9.5 本 章 小 结 


Spark 是 基于 内 存 的 分 布 式 计 算 框架 ,减少 了 和 迭代 计算 时 的 1/0 开销 。 虽 然 Hadoop 
已 成 为 大 数据 的 事实 标准 ,但 是 MapReduce 分 布 式 计 算 模型 仍 存 在 诸多 缺陷 ,而 Spark 不 
仅 具 备 了 Hadoop MapReduce 的 优点 ,而 且 解 决 了 Hadoop MapReduce 的 缺陷 。Spark 1E 
以 其 结构 一 体 化 、 功 能 多 元 化 的 优势 逐渐 成 为 当今 大 数据 领域 最 热门 的 大 数据 计算 平台 。 

本 章 详细 介绍 Spark 的 安装 配置 方法 ,并 且 把 Spark 配置 为 和 Hadoop 一 起 使 用 ,可 以 
让 Spark 访问 HDFS 中 的 数据 。 

Spark Shell 提供 了 简单 的 方式 来 学 习 API, 并 且 提供 了 交互 的 方式 来 分 析 数 据 。 本 章 
详细 介绍 如 何 启动 Spark Shell\ 读 取 文件 ,以 及 如 何 编写 词 频 统计 程序 。 

可 以 使 用 Spark API 编写 独立 应 用 程序 。 使 用 Scala 语言 编写 的 程序 需要 使 用 sbt 进 
行 编译 打包 ,相应 地 ,使 用 Java 语言 编写 的 Spark 程序 需要 使 用 Maven 进行 编译 打包 。 本 
章 最 后 分 别 介绍 如 何 使 用 Scala 和 Java 两 种 语言 编译 运行 Spark 独立 应 用 程序 。 
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典型 的 可 视 化 工具 的 使 用 方法 


数据 可 视 化 是 大 数据 分 析 的 最 后 环节 ,也 是 非常 关键 的 一 环 。 在 大 数据 时 代 ,数据 容量 
和 复杂 性 的 不 断 增加 ,限制 了 普通 用 户 从 大 数据 中 直接 获取 知识 ,可 视 化 的 需求 越 来 越 大 ， 
依靠 可 视 化 手段 进行 数据 分 析 必 将 成 为 大 数据 分 析 流 程 的 主要 环节 之 一 。 让 ”茫茫 数据 ?以 
可 视 化 的 方式 呈现 ,让 枯燥 的 数据 以 简单 友好 的 图 表 形 式 展 现 出 来 ,可 以 让 数据 变 得 更 加 通 
俗 易 懂 , 有 助 于 用 户 更 加 方便 快捷 地 理解 数据 的 深层 次 含义 ,有 效 参 与 复杂 的 数据 分 析 过 
程 ,提升 数据 分 析 效率 ,改善 数据 分 析 效 果 。 

本 章 分 别 介绍 了 5 种 典型 的 可 视 化 工具 的 使 用 方法 ,包括 Easel. ly, D3, Tableau, Jit i . 


ECharts 等 。 


10.1 Easel. ly 信息 图 制作 方法 


本 节 介 绍 信息 图 的 概念 ,并 给 出 使 用 Easel. ly 制作 信息 图 的 方法 。 
10.1.1 信息 图 


信息 图 是 指数 据 、 信 息 或 知识 的 可 视 化 表现 形式 。 信 息 图 主要 用 于 清楚 准确 地 解释 或 
表达 甚 为 复杂 且 大 量 的 信息 。 图 10-1 是 一 个 典型 的 信息 图 ,显示 的 是 全 球 各 大 洲 的 石油 消 
费 情况 ,效果 一 目 了 然 。 


10.1.2 信息 图 制作 基本 步骤 


Easel. ly 是 非常 流行 的 信息 图 制作 软件 之 一 ,具有 界面 简洁 、 操 作 简 便 、 图 片 精美 等 特 
点 。 用 户 只 需要 登录 Easel. ly 官方 网 站 (http://www. easel. ly/) , 即 可 进行 信息 图 制作 。 
可 以 在 Windows 或 Linux 系统 中 打开 浏览 器 进行 可 视 化 图 表 制 作 , 但 是 ,建议 在 Windows 
系统 下 操作 ,使 用 起 来 会 更 加 顺畅 。 建 议 在 Windows 系统 中 打开 浏览 器 登录 Easel. ly È 
网 制作 信息 图 。 


1 选择 模板 


进入 Easel. ly 页 面 后 ,就 可 以 开始 创建 信息 图 。 如 图 10-2 所 示 ,可 以 选择 两 种 方法 创 
建 信息 图 。 
(1) 创建 空白 模板 。 
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图 10-1 一 个 信息 图 实例 


(2) 选择 一 个 已 有 模板 ,在 其 基础 上 进行 制作 ,模板 内 的 内 容 可 以 修改 。 目 前 Easel. ly 
官网 上 已 经 有 超过 200 万 的 模板 , 且 可 以 通过 选项 进行 筛选 。 推 荐 使 用 模板 进行 制作 。 





Click on a template below to get started. 











a (Hunt 





图 10-2 Easel. ly 页 面 


2 编辑 内 容 

选 好 模板 后 ,就 可 以 开始 进行 信息 图 的 制作 。 图 10-3 展示 的 是 Easel. ly 的 工具 栏 , 显 
示 了 Easel. ly 的 所 有 功能 。 

图 10-3 中 ,从 左 到 右 的 功能 依次 如 下 。 
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A: Vhemes Objects 3 T! 24 会 P Present 





图 10-3 Easel. ly 工具 栏 


(1) Vhemes: 模板 选择 。 
(2) Objects: 添加 元 素 。 
(3) backgrounds: 选择 背景 。 
添加 线条 。 
(5) text; 添加 文本 。 
(6) charts: 添加 数据 图 表 , 可 选 直方 图 .曲线 图 .卫星 图 、 和 雷达 图 、 饼 状 图 。 
(D upload: 上 传 图 片 。 
首先 需要 在 backgrounds 中 选择 一 个 背景 ,并 选择 需要 的 尺寸 ,然后 拖 动 你 需要 的 背景 
到 下 方 的 工作 面板 上 即 可 ,效果 如 图 10-4 所 示 。 


(4) shapes: 








Login Register 


E [| ` T ad | A 


Vhemes P $ Objects 





图 10-4 工作 面板 





MEN 


可 以 陆续 向 这 个 面板 上 添加 各 种 元 素 , 完 
。 只 要 将 工具 栏 中 的 元 素 拖 到 需要 添 
加 的 地 方 ,就 能 完成 元 素 的 添加 ,过 程 十 分 简便 。 例 
如 ,在 工具 栏 的 charts 中 拖 动 曲线 图 的 图 标 到 面板 上 ， choose category 
加 数据 后 ,就 能 完成 添加 一 个 数据 图 的 操 ^ 
:的 text 选项 下 拖 动 Title 模块 ,输入 标题 
名 称 并 添加 适当 的 banners 即 可 完成 标题 的 添加 。 
Easel. ly 提供 了 很 多 其 他 可 供 添 加 的 元 素 , 使 得 制 
作出 来 的 信息 图 十 分 精美 。 当 单 击 操作 台中 的 Objects 
时 ,就 可 以 进行 元 素 的 选择 和 添加 ,如 图 10-5 所 示 。 
Easel. ly 提供 了 元 素 的 检索 功能 , 当 需 要 进行 添加 
时 ,只 需要 找到 需要 的 元 素 图 像 , 然 后 拖 动 到 面板 上 ， 
再 调整 大 小 .角度 ,添加 需要 的 文字 即 可 。 


3. 导出 图 片 

















在 运用 Easel. ly 制作 出 信息 图 以 后 ,可 以 进行 图 
片 的 导出 , 步 又 如 下 。 

(1) 单 击 操作 台 最 右 侧 的 Present。 i 

(2) 右 击 完成 的 图 片 ,在 弹出 的 快捷 菜单 中 选择 图 10-5 “元 素 的 选择 和 添加 
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“图 片 另存 为 ”, 就 可 以 将 制作 的 图 片 保存 到 本 地 。 
4 中 文 兼容 性 问题 


在 使 用 过 程 中 ,可 能 会 碰 到 Easel. ly 中 文 兼容 问题 , 即 导出 图 片 时 中 文字 体 显 示 错 乱 
问题 ,如 图 10-6 所 示 , 有 些 中 文 被 加 粗 显示 ,有些 中 文 没有 加 粗 显示 ,很 不 美观 。 

这 是 由 于 Easel. ly 网 站 内 部 的 问题 ,目前 暂 无 完美 的 解决 方案 ,这 里 给 出 一 个 不 完全 
的 解决 方案 , 仅 供 参考 。 

首先 必须 要 登录 Easel. ly, 然 后 在 信息 图 制作 完成 后 , 单 击 顶部 菜单 中 的 Save 选项 保 
存 , 再 单 击 Share 选项 选择 View in Browser。 此 时 ,制作 好 的 信息 图 就 可 以 在 浏览 器 中 显 
示 , 此 时 中 文 是 显示 正常 的 ( 见 图 10-7)。 最 后 ,把 浏览 器 中 的 显示 效果 进行 截屏 得 到 图 片 ， 
或 者 直接 把 浏览 器 中 的 图 片 右 击 ,在 弹出 的 快捷 菜单 中 选择 “另存 为 ”, 就 可 以 保存 成 图 片 。 
但 是 ,这 种 方法 存在 清晰 度 不 高 的 问题 。 


这 是 中 文 你 好 ，CA BND 这 是 中 文 你 好 ,Georgia 

这 是 中 文 你 好 ,Comic 这 是 中 文 你 好 ,Helve 
ES 这 是 中 文 你 好 ,Impaet 

这 是 中 文 你 好 , courier 这 是 中 文 你 好 ,Lucida 

这 是 中 文 你 好 ,DejaVu 这 是 中 文 你 好 ,Monaco 

这 是 中 文 你 好 ,Delicious 这 是 中 文 你 好 ,Myriad 

这 是 中 文 你 好 ,Enriet 这 是 中 文 你 好 ,Modermist 

















图 10-6 ”中 文 乱码 效果 图 10-7 中 文正 常 显示 效果 


10.2 D3 可 视 化 库 的 使 用 方法 


D3 的 全 称 是 Data-Driven Documents. ,顾名思义 , 它 是 一 个 被 数据 驱动 的 文档 。 实 际 
上 ,D3 是 一 个 JavaScript 函数 库 , 主 要 用 来 做 数据 可 视 化 。 这 里 只 是 简要 介绍 D3 的 一 些 最 
基本 的 使 用 方法 ,以 及 如 何 生成 一 些 比较 简单 的 图 表 。 在 学 习 本 节 内 容 时 ,会 涉及 以 下 

(1) HTML: 超 文本 标记 语言 ,用 于 设 定 网 页 的 内 容 。 

(2) CSS; 层 又 样式 表 , 用 于 设 定 网 页 的 样式 。 

(3) JavaScript: 一 种 直译 式 脚本 语言 ,用 于 设 定 网 页 的 行为 。 

(D DOM; 文档 对 象 模型 ,用 于 修改 文档 的 内 容 和 结构 。 

(5) SVG. 可 缩放 矢量 图 形 , 用 于 绘制 可 视 化 的 图 形 。 

建议 通过 查找 网 络 资料 加 深 对 上 述 概念 的 理解 ,这 里 不 再 著述 。 可 以 在 Windows 或 
Linux 系统 中 打开 浏览 器 进行 可 视 化 图 表 制作 ,建议 在 Windows 系统 下 操作 ,使 用 起 来 会 
更 加 顺畅 。 
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10.2.1 D3 可 视 化 库 的 安装 


D3 是 一 个 JavaScript 函数 库 , 这 里 所 说 的 “安装 ”, 并 非 通常 意义 上 的 安装 ,而 只 需要 在 
HTML 中 引用 一 个 D3. js 文件 即 可 。 可 以 有 两 种 方法 引用 D3. js 文件 。 

(1) 访问 D3. js 官网 (https://d3js. org/) ,下 载 D3. js 文件 ,解压 后 ,在 HTML 文件 中 
包含 相关 的 js 文件 即 可 。 本 书 官网 的 “下 载 专区 ”的 “代码 ”的 “第 10 章 ? 目 录 下 ,也 提供 了 
D3. js 文件 的 下 载 ,文件 名 是 d3. zip. 

(2) 直接 包含 网 络 的 链接 , 即 在 HTML 文件 中 写 入 如 下 代码 : 














«script src= "http://d3js.org/d3.v3.min.js" charset- "utf- 8">< /script> 





方法 (1) 是 把 D3. js 文件 下 载 到 本 地 使 用 ,所 以 ,在 使 用 过 程 中 不 需要 连接 网 络 ; 而 方法 
(2) 则 需要 在 使 用 过 程 中 能 够 连接 到 互联 网 。 


10.2.2 基本 操作 
l 添加 元 素 


比如 ,选择 body 标签 ,为 之 添加 一 个 p 标签 ,并 设置 它 的 内 容 为 “New paragraph!”, 则 
可 以 使 用 如 下 JavaScript 语句 : 





d3.select ("body") .append ("p") .text ("New paragraph!"); 





需要 把 这 行 JavaScript 语句 放 和 人 HTML 代码 中 ,文件 名 为 examplel. html, 代 码 如 下 : 





«html» 
<head> 
«meta charset- "utf- 8"> 
<title>D3 测 试 < /title> 
«script type- "text/javascript" src= "http://d3js.org/d3.v3.min.js"» 
</script> 
< /head> 
<body> 
<script type= "text/javascript"» 
d3.select ("body") .append ("p") .text ("New paragraph!") ; 
</script> 
< /body> 
</html> 


examplel. html 代码 文件 可 以 直接 从 本 书 官网 “下 载 专区 ”的 
“代码 ”目录 的 “第 10 章 ” 子 目录 下 载 。 在 上 面 这 段 HTML 代码 中 。 | New paragraph! 
采用 了 直接 包含 网 络 链接 的 形式 来 引用 D3. js 文件。 在 浏览 器 中 打 
开 这 个 HTML 文件 ,就 可 以 看 到 如 图 10-8 所 示 的 效果 。 


























图 10-8 网 页 效果 
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2 数据 绑 定 


D3 可 以 处 理 哪些 类 型 的 数据 呢 ? 它 可 以 接受 几乎 任何 数字 数 
组 .字符 串 或 对 象 (本 身 包含 其 他 数组 或 键 值 对 ) .还 可 以 处 理 JSON 和 GeoJSON。 
下 面 给 出 一 段 实例 代码 ,文件 名 称 为 example2. html: 





< !DOCTYPE html> 
«html» 
<head> 
<title>testD3- 1.html< /title> 
«script type= "text/javascript" src= "http://d3js.org/d3.v3.min.js"> 
</script> 
</head> 
<body> 
This is my HTML page.« br» 
< /body» 
«script type- "text/javascript"» 
var dataset- [ 5, 10, 15, 20, 25 ]; 
d3.select ("body") .selectAl1l ("p") 
-data (dataset) 
.enter () 
-append ("p") 
„text ("New paragraph!"); 
</script> 
€ /html» 











example2. html 代码 文件 可 以 直接 从 本 书 官网 “下 载 专区 ”的 “代码 ”目录 的 “第 10 章 ” 
子 目录 下 载 。 上 面 这 段 代 码 解释 如 下 。 

(1) d3. select("body"): 查找 DOM 中 的 body. 

(2) selectAll("p"): 选择 DOM 中 的 所 有 段落 。 

(3) data(dataseO : 计数 和 分 析 数 据 值 。 本 实例 中 ， 
dataset 中 有 5 个 值 ,每 个 值 都 会 执行 一 次 。 This is my HTML page. 

(4) enterO ; 绑 定数 据 和 DOM 元 素 。 这 个 方法 将 
数据 传递 到 DOM 中 。 如 果 数 据 值 比 相应 的 DOM 元 素 
多 ,就 用 enter() 创 建 一 个 新 元 素 的 占 位 符 。 New paragraph! 

(5) append(" p"); 通过 enter() 创 建 的 占 位 符 , 在 New paragraph! 
DOM 中 插入 一 个 p 元 素 。 

(6) text("New paragraph!1"): 为 新 创建 的 p 标签 
插入 一 个 文本 值 。 New paragraph! 

在 浏览 器 中 打开 这 个 HTML 文件 ,就 可 以 看 到 如 
图 10-9 所 示 的 效果 。 图 10-9 绑 定 数据 后 的 网 页 效果 


New paragraph! 

















New paragraph! 
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3. 用 层 画 条 形 图 


1) 为 同类 层 添加 样式 





div.bar ( 
display: inline-block; 
width: 20px; 
height: 75px;  /* We'll override this later * / 
background- color: teal; 





2) 声明 要 为 某 类 层 设 置 属性 





.attr("class", "bar") 





30 为 每 个 特定 的 层 设置 属性 





.Style ("height", function(d) ( 
var barHeight=d * 5; //Scale up by factor of 5 
return barHeight* "px"; 

H; 





4) 设置 层 之 间 的 间隔 








margin- right: 2px; 








5) 完整 的 源 代码 
下 面 是 完整 的 HTML 源 代码 ,文件 名 是 example3. html: 








< !DOCTYPE html» 
<html> 
<head> 
<meta charset= "utf- 8"> 
<title> testD3- 3- drawingDivBar< /title> 
«script type- "text/javascript" src="http://d3js.org/d3.v3.min.js"> 
</script> 
<style type="text/css"> 
div.bar { 
display: inline-block; 
width: 20px; 
height: 75px; /* Gets overriden by D3- assigned height below* / 
margin- right: 2px; 
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background- color: teal; 
} 
</style> 
</head> 
<body> 
<script type= "text/javascript"> 
var dataset- [ 5, 10, 15, 20, 25 ]; 
d3.select ("body") .selectA11 ("div") 
„data (dataset) 
„enter () 
-append ("div") 
-attr("class", "bar") 
-Style("height", function (d) { 
var barHeight-d * 5; 
return barHeight* "px"; 
H; 
</script> 
< /body> 
</html> 








example3. html 代码 文件 可 以 直接 从 本 书 官网 “下 载 专 
区 ”的 “代码 ”目录 的 “第 10 章 ? 子 目录 下 载 。 上 述 HTML 代 
码 ,在 浏览 器 中 打开 以 后 会 显示 如 图 10-10 所 示 的 效果 。 





4 绘制 SVG 图 形 


1) 简单 形状 
SVG 标签 包含 一 些 视觉 元 素 , 包 括 矩 形 、 圆 形 、 椭 圆 形 、 
线条 、 文 字 和 路 径 等 。 绘制 SVG 图 形 采 用 了 基于 像素 的 坐 





标 系 统 ,其 中 ,浏览 器 的 左上 角 是 原点 (0,0),x A y 的 正方 图 1010 网 页 中 的 条 形 图 效果 
向 分 别 是 右 和 下 。 

a) RUE. 

使 用 x 和 y 指定 左上 角 的 坐标 , width 和 height 指定 尺寸 。 绘 制 SVG JE MAR 
如 下 : 








<rectx="0" y-"0" width- "500" height- "50"/» 








(2) 圆 。 
使 用 cx 和 cy 指定 半径 的 中 心 的 坐标 ,使 用 r 表 示 半 径 , 例 如 : 











<circle cx- "250" cy- "25" I "25"/> 
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(3) 椭圆 。 
使 用 cx 和 cy 指定 半径 的 中 心 的 坐标 ,rx 和 ry 分 别 指定 x 方 向 和 y 方 向 上 圆 的 半径 ， 
例如 : 





<ellipse cx- "250" cy= "25" rx= "100" ry="25"/> 











(4) 线 。 
使 用 xl 和 yl 到 指定 线 的 一 端的 坐标 ,x2 和 y2 指定 另 一 端的 坐标 。stroke 指定 描 边 ， 
使 得 线 是 可 见 的 ,例如 : 





«line xl= "0" yl= "0" x2= "500" y2= "50" stroke= "black"/> 





(5) 文本 。 
使 用 x 和 y 指定 文本 的 位 置 ,例如 : 





«text x- "250" y- "25">Easy- peasy« /text> 





可 以 给 文本 设置 样式 ,例如 : 





<text x= "250" y= "155" font- family- "sans- serif" font- size- "25" fill- "gray"> Easy- peasy 
€ /text> 











2) 绘图 样 例 
下 面 是 一 段 绘制 SVG 图 形 的 HTML 源 代码 ,文件 名 是 example4. html: 





< !DOCTYPE html» 
«html» 
<head> 
«meta charset= "utf- 8"> 
<title> testD3- 6- SVG.html« /title> 
«script type- "text/javascript" src= "http://d3js.org/d3.v3.min.js"> 
</script> 
<style type="text/css"> 
.pumpkin { 
fill: yellow; 
stroke: orange; 
stroke-width: 5; 
} 
</style> 
< /head» 
<body> 
<script type= "text/javascript"»« /script> 
< svg width=500 height= 960» 
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<rect x-"0" y-"0" width- "500" height- "50"/> 
«ellipse cx= "250" cy= "225" rx- "100" ry-"25"/» 
«line x1- "0" y1- "120" x2- "500" y2- "50" stroke- "black"/» 
«text x- "250" y-"155" font- family- "sans- serif" 

font- size- "25" fill- "gray"> Easy- peasy« /text» 
«circle cx-"25" cy- "80" r- "20" 

fill-"rgba (128, O, 128, 0.75)" 

stroke= "rgba (0, 255, 0, 0.25)" 

Stroke- width= "100"/» 
<circle cx- "75" cy-"80" r-"20" 

fill-"rgba (0, 255, 0, 0.75)" 

Stroke- "rgba (0, 0, 255, 0.25)" stroke- width= "10"/» 
X circle cx- "125" cy- "80" r-"20" 

fill-"rgba (255, 255, 0, 0.75)" 

Stroke- "rgba (255, 0, 0, 0.25)" stroke- width= "10"/» 
«rect x-"0" y- "300" width= "30" height- "30" fill- "purple"/» 
«rect x-"20" y-"305" width " height- "30" fill= "blue"/> 
«rect x-"40" y= "310" width " height- "30" fill- "green"/» 
«rect x-"60" y-"315" width 30" fill-"yellow"/» 
«rect x-"80" y-"320" width= 30" fill-"red"/» 














X circle cx- "25" cy-"425" r- "22" class- "pumpkin"/» 

" fill-"rgba (128, 0, 128, 1.0)"/» 

" fill-"rgba(0, 0, 255, 0.75)"/» 

X circle cx- "75" cy= "525" r- "20" fill-"rgba(0, 255, 0, 0.5)"/» 

X circle cx- "100" cy- "525" r-"20" fill- "rgba (255, 255, 0, 0.25)"/» 
X circle cx- "125" cy- "525" r- "20" fill= "rgba (255, 0, 0, 0.1)"/» 


Xcircle cx-"25" cy- "525" r=" 






<circle cx- "50" cy- "525" r=" 


<circle cx- "25" cy= "625" r=" 





" fill- "purple" 
stroke- "green" stroke- width= "10" 
opacity- "0.9"/» 
X circle cx= "65" cy= "625" r- "20" fill- "green" 
stroke= "blue" stroke- width- "10" 
opacity- "0.5"/» 
X circle cx-"105" cy- "625" r-"20" fill-"yellow" 
stroke= "red" stroke- width- "10" 
opacity-"0.1"/» 
</svg> 
< /body» 
</html> 











example4. html 代码 文件 可 以 直接 从 本 书 官网 “下 载 专 区 ”的 “代码 ”目录 的 “第 10 qe" 
子 目录 下 载 。 上 述 HTML 代码 ,在 浏览 器 中 打开 以 后 会 显示 如 图 10-11 所 示 的 效果 。 


5. 散 点 图 
下 面 是 给 出 绘制 散 点 图 的 一 段 HTML 代码 样 例 , 文 件 名 是 example5. html: 
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图 10-11 网 页 中 的 SVG 图 形 效果 








< !DOCTYPE html» 
«html» 
<head> 
«meta charset- "utf- 8"> 
«title» testD3- 9- drawScatterLot.html« /title> 
<script type- "text/javascript" src- "http://d3js.org/d3.v3.min.js"» 
</script> 
<style type="text/css"> 
</style> 
< /head> 
<body> 
<script type= "text/javascript"» 
//width and height 
var w= 600; 
var h=100; 
var dataset- [ 
[5, 20], [480, 90], [250, 50], [100, 33], [330, 95], 
[410, 12], [475, 44], [25, 67], [85, 21], [220, 88] 
l]; 
//Create SVG element 
var svg-d3.select ("body") 
.append ("svg") 
.attr("width", w) 
.attr("height", h); 
svg.selectAll ("circle") 
.data (dataset) 
.enter () 


-append ("circle") 
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-attr("cx", function(d) { 
return d[0]; 

n 

-attr("cy", function(d) { 
return d[1]; 

n 

-attr("r", function(d) { 
return Math.sqrt (h- d[1]) ; 

n; 

svg.selectAll ("text") 

„data (dataset) 

„enter () 

-append ("text") 

„text (function (d) ( 
return d[0]+","+d[1]; 

n 

.attr("x", function(d) { 
return d[0]; 

» 

.attr("y", function(d) ( 
return d[1]; 

» 

.attr("font- family", "sans- serif") 

.attr("font- size", "llpx") 

.attr("fill", "red"); 

</script> 
< /body> 
</html> 











example5. html 代码 文件 可 以 直接 从 本 书 官网 “下 载 专区 ”的 “代码 "目录 的 “第 10 章 ” 
子 目录 下 载 。 上 述 HTML 代码 ,在 浏览 器 中 打开 以 后 会 显示 如 图 10-12 所 示 的 效果 。 
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图 10-12 网 页 中 的 散 点 图 效果 


10.3 可视化 工具 Tableau 使 用 方法 


Tableau 是 一 款 数 据 可 视 化 工具 , 托 放 式 的 操作 和 精美 的 图 表 , 让 这 款 软 件 在 大 数据 可 
视 化 方面 大 放 光 彩 。Tableau 是 桌面 系统 中 最 简单 的 商业 智能 工具 软件 , 它 没有 强迫 用 户 
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编写 自 定义 代码 ,新 的 控制 台 也 可 完全 自 定义 配置 。Tableau 控制 台 十 分 灵活 ,具有 高 度 
动态 性 ,在 控制 台 上 ,不 仅 能 够 监测 信息 ,而 且 还 提供 完整 的 分 析 能 力 。Tableau ida 
据 运算 与 美观 的 图 表 很 好 地 嫁接 在 一 起 , 它 的 程序 很 容易 上 手 , 用 户 可 以 用 它 将 大 量 数据 拖 
放 到 数字 “画布 "上 ,转眼 间 就 能 创建 好 各 种 图 表 。 














10.3.1 安装 Tableau 


Tableau 是 一 款 收 费 软件 ,但 是 有 一 个 免费 试用 期 ,默认 是 14 天 。 可 以 访问 Tableau 
官网 (http://www. tableau. com/zh-cn) 下 载 安装 文件 。Tableau 目前 不 支持 Linux 系统 ， 
建议 在 Windows 系统 下 安装 和 使 用 Tableau 。 进 入 官网 后 , 单 击 右 上 角 的 “免费 试用 ”, 然 后 选 
择 桌 面 版 , 单 击 “ 开 始 使 用 ”选项 ,然后 就 会 出 现下 载 的 弹 窗 , 单 击 “ 下 载 ”按钮 即 可 。Tableau 安 
装 过 程 十 分 简单 ,只 需要 双击 安装 包 , 跟 着 提示 一 步 一 步 操作 即 可 顺利 完成 安装 。 

10.3.2 界面 功能 介绍 


1. 首 界 面 
启动 Tableau 软件 后 ,首先 会 出 现 一 个 首 界面 ,如 图 10-13 所 示 。 





iiid "— 





图 10-13 Tableau 首 界面 








界面 的 左边 指示 数据 的 来 源 , Tableau 可 以 连接 到 本 地 的 Excel 表格 、 文 本 、Access 数 
据 库 和 统计 文件 等 ,也 可 以 连接 数据 库 服 务 器 ,如 Microsoft SQL Server ili E , MySQL 数 
据 库 和 Oracle 数据 库 等 。 界 面 左下 角 显 示 了 已 保存 的 数据 源 。 界 面 中 间 上 面部 分 显示 了 
最 近 打开 过 的 工作 簿 ,下 面部 分 显示 示例 工作 德 , 即 Tableau 自 带 的 一 些 工作 簿 ,可 以 单 击 
更 多 样本 查看 更 多 的 数据 图 。 界 面 右边 显示 了 探索 、 每 周 精 选 以 及 Tableau 一 些 社区 、 博 客 
和 新 闻 等 。 第 一 次 运行 该 软件 ,可 以 单 击 某 一 个 示例 工作 簿 ,查看 该 软件 数据 展示 的 图 示 ， 
以 及 如 何 简 单 操作 。 这 里 选择 示例 超市 工作 簿 ,打开 之 后 如 图 10-14 所 示 。 
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图 10-14 ”超市 工作 簿 示例 


这 个 界面 是 仪表 板 界面 ,由 以 下 几 个 组 件 构成 。 

(1) 仪表 板 : 显示 当前 仪表 板 能 看 到 的 工作 表 , 其 中 有 打 钩 标志 是 已 经 添加 到 当前 仪 
表 板 的 工作 表 , 没 有 打 钩 的 是 还 未 添加 到 当前 仪表 板 的 工作 表 。 仪 表 板 还 可 以 添加 文本 、 图 
像 、 空 白 等 对 象 ,以 及 设置 这 些 对 象 布 局 方式 。 

(2) 布局 : 显示 当前 仪表 板 下 所 有 工作 表 以 及 对 象 的 层次 关系 。 

CD 属性 窗口 : 显示 当前 组 件 的 属性 ,如 果 单 击 仪表 板 , 则 显示 仪表 板 的 属性 。 

(4) 容器 : 可 以 存放 工作 簿 和 各 种 对 象 的 容器 ,是 一 个 仪表 板 放置 内 容 的 地 方 。 

(5) 智能 显示 : 提供 各 种 图 示 , 当 设置 好 行列 数据 之 后 , 单 击 智能 显示 里 的 各 种 图 ,就 
可 以 显示 当前 的 数据 相应 的 图 例 。 

(6) 工作 表 和 仪表 板 列表 : 界面 底部 用 和 矩形 框框 住 的 部 分 , 单 击 左 侧 第 一 个 按钮 可 以 
切换 到 数据 源 模 式 。 中 间 部 分 是 已 经 打开 的 仪表 板 和 工作 表 列 表 , 仪 表 板 前 面 有 田 字 格 图 
标 和 工作 表 图 标 。 最 后 3 个 图 标 表示 新 建 工作 表 、 仪 表 板 和 故事 。 


2 工作 表 界 面 


工作 表 是 针对 数据 源 部 分 数据 或 者 所 有 数据 操作 的 区 域 ,可 以 制作 出 各 种 各 样 的 图 表 。 
单 击 “ 新 建 工 作 表 ” 图 标 以 后 ,会 弹出 如 图 10-15 所 示 界 面 。 

工作 表 界 面 的 左 侧 是 数据 源 的 一 些 属性 ,其 中 ,维度 "表示 表格 的 文本 属性 ,度量 表 
示 表格 中 数据 属性 ,“ 集 "表示 数据 源 部 分 数据 的 集合 “参数” 表示 一 些 额 外 定义 的 参数 。 工 
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图 10-15 新建 工作 表 界 面 


作 表 界面 右 侧 是 工作 区 域 ,可 以 把 维度 某 个 属性 拖 到 “ 行 ”, 把 度量 的 某 个 属性 拖 到 “ 列 ”, 或 
者 反 过 来 ,就 可 以 制作 这 两 个 属性 的 数据 图 。“ 刷 选区 域 ? 主 要 是 针对 某 些 属性 进行 数据 得 
选 。“ 标 记 区 域 "主要 用 处 是 , 当 要 用 不 同 颜色 表示 不 同 数据 时 ,在 标记 区 域 就 会 标注 不 同 颜 
色 对 应 的 数据 种 类 。 


3. 仪表 板 界 面 


仪表 板 主要 是 工作 表 和 一 些 对 象 的 集合 (文本 和 网 页 等 ), 如 图 10-16 所 示 。 
一 个 新 建 的 仪表 板 ,容器 内 区 域 还 是 空 的 。 可 以 把 左上 角 的 工作 表 添 加 到 容器 空 
白 区 域 ,也 可 以 把 文本 、 图 像 等 对 象 添加 到 容器 空白 区 域 , 构 成 一 个 仪表 板 。 


10.3.3 Tableau 简单 操作 


经 过 之 前 的 简单 介绍 , 接 下 来 通过 制作 两 个 简单 的 工作 表 和 仪表 板 来 展示 Tableau 是 
如 何 操作 的 。 数 据 是 使 用 Tableau 自 带 的 超市 示例 数据 。 但 是 ,不 能 像 之 前 那样 打开 ,否则 
打开 的 是 一 个 Tableau 文件 ,而 是 需要 单 击 软件 首 界 面 ( 见 图 10-13) 左 侧 的 “连接 "下 的 
Excel". Tableau 默认 会 打开 示例 文件 夹 , 单 击 “示例 -超市 ? 即 可 。 然 后 ,如 图 10-17 所 示 , 界 
面 左 侧 会 列 出 超市 这 个 表格 下 的 3 个 子 工作 表 , 当 选中 其 中 一 个 子 工作 表 并 且 双 击 时 ,在 界 
面 右边 区 域 的 下 部 分 就 会 显示 该 子 工 作 表 的 数据 。 例 如 ,这 里 双击 “订单 ”这个 子 工作 表 , 则 
会 显示 如 下 图 所 示 的 数据 ,当然 ,还 可 以 单 击 右 上 角 的 “添加 筛选 器 ” ,进行 数据 过 滤 。 
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图 10-16 ”新 建 的 仪表 板 


RHA Gm) MSS) SN) BAH 
4 €2mnu 


O 示例 -超市 


BR Evea/ 





liem 


























aei Xem 
ae 8 





US-2014.1257144 2014/4/28 
CN-201419737... 
CN-201410737.. 
US-2014-301756a. 
CN-2013-29754... 
 CN-2012-44977... 


CN-2012-44977... 


HEPER] 


CN-7017-44977 











fu &3 t 








1037 ”超市 工作 短 的 3 个 工作 表 





第 10 章 ”典型 的 可 视 化 工具 的 使 用 方法 


此 时 ,可 以 新 建 一 个 工作 表 或 者 直接 用 软件 默认 打开 的 工作 表 1。 此 时 打开 的 工作 表 
就 是 针对 订单 中 的 数据 ,如 图 10-18 所 示 。 
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图 10-18 订单 中 的 数据 


界面 左边 就 是 “订单 ”这 个 表格 的 维度 和 度量 。 这 里 制作 一 个 简单 的 中 国 各 个 地 区 的 利 
润 图 表 。 将 国家 和 地 区 维度 拖 到 “ 列 ”, 把 利润 度量 拖 到 “ 行 ”, 即 可 制作 出 一 个 简单 的 条 形 
图 ,如 图 10-19 所 示 。 

Tableau 最 具有 特色 的 功能 是 拖 放 式 的 操作 ,只 需要 把 维度 以 及 度量 拖 到 适当 的 位 置 ， 
即 可 制作 数据 图 表 。 单 击 “ 智 能 显示 ”, 即 可 使 用 同样 数据 显示 成 不 同 图 表 。 例 如 , 单 击 “ 填 
充气 泡 图 ”, 即 可 制作 出 漂亮 的 气泡 图 ,如 图 10-20 所 示 。 

用 Excel 制作 填充 地 球 图 ,十 分 复杂 ,但 是 Tableau 制作 填充 地 球 图 却 十 分 方便 ,可 以 
说 是 一 键 生成 。 但 是 ,首先 必须 先 将 国家 、 城 市 .地 区 和 省 /自治 区 属性 改 成 地 理 维 度 。 如 
图 10-21 所 示 ,是 一 个 关于 中 国 各 个 省 份 利润 的 填充 地 球 图 ,需要 将 国家 和 省 /自治 区 维度 
拖 到 *“ 列 ”, 把 利润 拖 到 “ 行 ”, 再 单 击 “ 智 能 显示 ”里 的 “填充 地 球 图 ” 即 可 。 

接 下 来 可 以 使 用 以 上 几 个 工作 表 制 作 一 个 中 国 各 个 省 份 地 区 的 利润 仪表 板 。 首 先 , 添 
加 一 个 文本 ,填写 * 中 国 各 个 省 份 地 区 的 利润 比较 图 ”, 作 为 这 个 仪表 板 的 标题 , 放 在 最 顶部 ; 
然后 添加 一 个 水 平 对 象 ,将 地 区 利润 条 形 图 和 气球 图 工作 表 拖 进 这 个 水 平 对 象 里 ,并 排放 
置 ;最 后 再 将 省 份 利润 工作 表 拖 进 水 平 对 象 的 下 部 。 最 终 得 到 的 仪表 板 如 图 10-22 所 示 。 
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图 10-19 简单 的 条 形 图 
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10-20 气泡 图 
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图 10-21 填充 地 球 图 
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10-22 中国 各 个 省 份 地 区 的 利润 比较 图 
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10.4 使 用 R” WERK 


本 节 首 先 简要 介绍 “ 魔 镜 ”工具 ,然后 给 出 一 个 简单 制作 实例 。 
10.4.1 “ 魔 镜 ”简介 


“ 魔 镜 "是 国 云 数据 旗下 的 数据 可 视 化 产品 ,底层 封装 了 可 视 化 库 接口 ,用 户 通过 一 个 直 
观 的 拖 放 界面 ,就 可 以 创建 交互 式 的 图 表 和 完美 的 仪表 盘 ,并 可 以 通过 强大 的 筛选 器 分 类 整 
理 和 探索 自己 的 数据 。 简 单 拖 鼻 的 操作 、 上 选 下 旋转 的 功能 ,可 以 帮助 用 户 实现 各 种 分 析 挖 
气功 能 。 

“ 魔 镜 " 拥 有 丰富 的 可 视 化 效果 ,包含 500 多 种 图 形 库 ,涵盖 了 各 种 主流 的 可 视 化 展现 形 
式 , 绚 丽 而 易 读 。 探 索 式 的 分 析 结 合 丰富 的 可 视 化 效果 ,可 以 给 用 户 很 高 的 产品 体验 和 视觉 
感受 。 以 下 4 个 图 形 效果 ( 见 图 10-23 一 图 10-26), 选 自 于 魔 镜 官网 ,从 中 可 以 看 出 魔 镜 制 作 
图 形 的 绚丽 效果 。 





南 丁 格 尔 玫瑰 图 ^ Bc 
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1023 ” 魔 镜 效果 图 之 一 


10.4.2 简单 制作 实例 


可 以 在 Windows 或 Linux 系统 中 打开 浏览 器 进行 可 视 化 图 表 制 作 , 但 是 ,建议 在 
Windows 系统 下 操作 ,使 用 起 来 会 更 加 顺畅 。 首 先 登录 “ 魔 镜 ” 官 方 网 站 (http://www. 
moojnn. com/) , 单 击 网 页 右上 角 “ 登 录 / 注 册 ”, 先 注册 一 个 账号 ,然后 再 使 用 账号 登录 。 登 
录 之 后 界面 如 图 10-27 Bros s 
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图 10-25 


图 10-26 





魔 镜 效果 图 之 三 
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魔 镜 效果 图 之 四 
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图 10-27 魔 镜 登 录 后 的 页 面 


这 个 界面 右上 角 有 一 个 “新 建 项 目 ” 的 按钮 , 单 击 该 按钮 即 可 新 建 一 个 项 目 。 界 面 第 一 
栏 为 “我 的 项 目 ”, 即 用 户 自己 制作 编辑 的 项 目 ; 第 二 栏 为 “示例 项 目 ”, 即 魔 镜 官方 提供 的 一 
些 示例 ,初学 者 可 以 单 击 进去 简单 了 解 ,里 面 有 相应 数据 集 制作 的 绚丽 图 形 , 同 时 可 以 利用 
示例 的 数据 集 , 自 己 制作 一 些 图 形 。 界 面 最 后 一 栏 为 “入 门 视频 ”。 

接 下 来 ,使 用 一 个 示例 数据 集 ( 即 一 个 超市 销售 样 例 ) 制 作 一 些 图 形 , 从 而 可 以 更 好 地 了 
解 如 何 使 用 魔 镜 。 

首先 单 击 “ 新 建 项 目 ”, 输 入 项 目 名 ,数据 源 可 以 选择 “Excel 表格 ”, 导 入 数据 ,然后 单 击 
“保存 ”按钮 即 可 出 现 个 人 制作 操作 台 , 如 图 10-28 所 示 。 

在 个 人 制作 操作 台 界 面 中 ,“ 新 建 图 表 ” 就 是 用 来 制作 各 种 各 样 的 图 形 ,而 “新 建 仪表 盘 ” 
则 可 以 创建 用 来 存放 多 个 图 表 的 面板 ,用 多 个 数据 图 表 展 示 数 据 的 某 个 方面 。 这 里 单 击 “ 新 
建 图 表 ”, 即 可 出 现 制作 图 表 的 工作 区 ,如 图 10-29 所 示 。 

在 制作 图 表 工 作 区 界面 中 ,左边 是 数据 的 两 个 维度 ,维度 (X 轴 ) 为 文本 属性 ,度量 (Y 
轴 ) 为 数值 属性 。 当 需要 制作 某 个 图 表 时 ,只 需要 用 鼠标 将 维度 拖 至 箭头 指向 的 “ 行 ", 将 度 
量 拖 至 箭头 指向 的 “ 列 " 也 可 以 单 击 维度 或 度量 后 面 的 箭头 ), 然 后 单 击 右边 框 中 的 各 种 图 
表 , 即 可 生成 相应 的 图 表 类 型 。 这 里 我 们 分 析 一 下 每 个 地 区 的 销售 额 和 利润 ,首先 将 “地 区 ” 
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图 10-28 个 人 制作 操作 台 
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图 10-29 制作 新 图 表 的 工作 区 


拖 至 “ 行 ”, 然 后 把 “销售 额 * 和 “利润 ” 拖 至 “ 列 ”, 单 击 某 种 图 表 即 可 生成 相应 的 图 表 , 如 
图 10-30 所 示 。 

魔 镜 的 操作 就 是 如 此 简单 , 拖 电 数 据 属 性 和 度量 ,然后 单 击 图 表 , 就 可 以 一 键 生成 绚丽 
图 表 。 不 过 ,如 果 要 制作 高 级 的 图 表 ,就 需要 使 用 魔 镜 企 业 版 ,而 企业 版 需要 收费 ,所 以 , 接 
下 来 会 介绍 基于 编程 的 制作 图 表 代 码 库 ECharts, 属 于 免费 软件 ,可 以 轻松 制作 出 高 级 
图 表 。 
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图 10-30 ”生成 的 图 表 


10.5 使 用 ECharts 制作 图 表 


本 节 首 先 简要 介绍 ECharts, 然后 给 出 ECharts 图 表 的 制作 方法 ,最 后 介绍 两 个 制作 
实例 。 


10.5.1 ECharts 简介 


ECharts 是 由 百度 公司 前 端 数 据 可 视 化 团队 研发 的 图 表 库 , 可 以 流畅 地 运行 在 PC 和 移 
动 设备 上 ,兼容 当前 绝 大 部 分 浏览 器 ,底层 依赖 轻 量 级 的 .Canvas 类 库 ZRender, 可 以 提供 
直观 .生动 .可 交互 .可 高 度 个 性 化 定制 的 数据 可 视 化 图 表 。 

ECharts 提供 了 非常 丰富 的 图 表 类 型 ,包括 常规 的 折线 图 、 柱 状 图 、 散 点 图 、 饼 图 、K 线 
图 ,用 于 统计 的 盒 形 图 ,用 于 地 理 数据 可 视 化 的 地 图 .热力 图 、 线 图 ,用 于 关系 数据 可 视 化 的 
关系 图 ,treemap, 用 于 多 维 数据 可 视 化 的 平行 坐标 ,以 及 用 于 BI 的 漏斗 图 、 仪 表盘, 并 且 支 
持 图 与 图 之 间 的 混搭 ,能 够 满足 用 户 绝 大 部 分 分 析 数 据 时 的 图 表 制 作 需 求 。 


10.5.2 ECharts 图 表 制 作 方 法 


ECharts 是 一 款 可 视 化 开发 库 , 底 层 用 的 是 JavaScript 封装 ,所 以 可 以 在 网 页 HTML 
中 嵌入 ECharts 代码 来 显示 数据 图 表 。 


1 下载 ECharts 


可 以 在 Windows 或 Linux 系统 中 打开 浏览 器 进行 可 视 化 图 表 制 作 ,但 是 ,建议 在 
Windows 系统 下 操作 ,使 用 起 来 会 更 加 顺畅 。 访 问 ECharts 官网 (http://echarts. baidu. 
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com/) ,从 官网 下 载 界面 选择 需要 的 版 本 下 载 ,根据 开发 者 的 不 同 需求 ,官网 提供 了 不 同 的 
下 载 文件 。 需 要 注意 的 是 ,网 站 下 载 的 ECharts 文件 名 称 不 是 echarts. js, 一 般 需 要 手动 把 
文件 名 称 修改 为 echarts. js, HHE HTML 中 引入 时 的 名 称 是 echarts. js。 


2. HIML 引入 ECharts 


因为 ECharts 底层 是 JavaScript, 所 以 可 以 像 JavaScript 一 样 ,直接 租 入 到 HTML F, 
如 下 所 示 : 








< !DOCTYPE html> 
<html> 
<header> 
«meta charset- "utf- 8"> 
<!-- 引 入 Echarts 文件 --> 
<script src= "echarts.js"></script> 
< /header» 
</html> 











3. 绘制 一 个 简单 的 图 表 


首先 需要 为 ECharts 准备 一 个 具备 高 宽 的 DOM 容器 ;然后 就 可 以 通过 echarts. init 方 
法 初始 化 一 个 echarts 实例 并 通过 setOption 方法 生成 一 个 简单 的 柱状 图 ,具体 HTML 代 
码 如 下 : 





< !DOCTYPE html» 
«html» 
<head> 
<meta charset="utf- 8"> 
«title»ECharts« /title» 
<!-- 引 入 echarts.js--» 
«script src= "echarts.js">< /script> 
< /head> 
<body> 
<!-- 为 Echarts 准备 一 个 具备 大 小 ( 宽 高 ) 的 DoM- -> 
«div id- "main" style="width: 600px;height:400px;"»« /div> 
<script type- "text/javascript"» 
// 基 于 准备 好 的 DoM, 初 始 化 echarts 实例 
var myChart= echarts.init (document .getElementById ('main')); 
// 指 定 图 表 的 配置 项 和 数据 
var option-( 
title: { 
text: 'ECharts 人 门 示例 
] 
tooltip: (), 
legend: { 
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data: [" 销 量 '] 
] 
xhxis: { 
data: [" 衬 衫 ", EE n, "E Een "裤子 ", "高 跟 鞋 ", "袜子 "] 
] 
Yaxis: {}, 
series: [t 
name: "销量 '， 
type: 'bar', 
data: [5, 20, 36, 10, 10, 20] 
H 
k 
// 使 用 刚 指定 的 配置 项 和 数据 显示 图 表 
myChart.setOption (option); 
</script> 
< /body> 
</html> 











上 述 代 码 文件 可 以 直接 从 本 书 官网 “下 载 专区 ”的 “代码 ”目录 的 “第 10 章 ? 子 目录 下 载 ， 
文件 名 是 example6. html。 为 了 能 够 演示 这 段 代码 ,需要 新 建 一 个 文件 夹 , 把 echarts. js X 
件 复制 到 该 文件 夹 中 ,同时 ,在 该 文件 夹 中 新 建 一 个 HTML 3c fF Or $8644 28. html) ,把 上 面 
这 段 代码 复制 到 该 HTML 文件 中 ;然后 双击 该 HTML 文件 , 即 可 在 浏览 器 中 显示 图 表 。 
但 是 ,有 的 计算 机 会 出 现 中 文 乱码 ,可 以 按照 如 下 方法 解决 该 问题 。 

COD ADI <head> </head> H ff] — meta charset — " utf-8" 7 ilt Jg <meta charset = 
"GBK">, 

(2) 将 script 代码 的 字符 集 改 为 GBK , 即 把 语句 二 script type=" text/javascript" >K 
为 一 script type= "text/javascript" charset 二 "GBK">。 

这 段 HTML 代码 在 浏览 器 中 的 正常 显示 效果 如 图 10-31 Bron o 
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导出 图 表 
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10-31 一 个 简单 图 表 的 效果 
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4 导出 图 片 


ECharts 可 以 很 方便 地 导出 制作 的 图 表 。 只 要 在 代码 中 加 入 如 下 代码 , 即 可 显示 出 如 
图 10-31 右上 角 所 示 的 工具 栏 ,其 中 ,最 右边 矩形 框 中 的 图 标 即 为 “导出 图 表 ” 的 快捷 图 标 ， 
单 击 该 图 标 就 可 以 顺利 完成 图 表 的 导出 。 这 段 代 码 可 以 直接 从 本 书 官网 的 “下 载 专区 ”下 
载 ,位 于 “代码 ”目录 的 “第 10 章 ? 子 目录 下 ,文件 名 是 toolbox. html, 





toolbox: { 
show : true, 
feature : ( 
dataZoom: (], 
dataView: (readOnly: false), 
magicType: (type: ['line', 'bar']]), 
restore: (], 


saveAsImage: {} 


) 











实际 上 ,如 果 只 是 简单 地 制作 图 表 , 而 不 是 用 于 网 页 中 ,最 简单 的 办 法 是 打开 ECharts 
提供 的 一 个 示例 ,将 示例 代码 清除 ,直接 在 示例 的 编辑 器 写 入 新 代码 即 可 ,而 且 不 会 出 现 乱 
码 , 图 片 导 出 操作 和 上 面 介绍 的 方法 一 样 。 例 如 ,可 以 打开 * 微 博 签到 数据 点 亮 中 国 示例 图 ” 
( 见 图 10-32) ,把 编辑 框 中 的 代码 清除 ,然后 写 入 自己 的 代码 , 单 击 * 运 行 ?选项 ,也 可 以 显示 
ECharts 图 表 ( 见 图 10-33) ,非常 简单 方便 。 





@ =CHARTS 





图 10-32 微 博 签 到 数据 点 亮 中 国 示例 图 
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图 10-33 写 人 自己 代码 后 显示 的 ECharts 图 表 


10.5.3 两 个 实例 


1 全 国 主要 城市 空气 质量 图 


这 里 制作 一 个 全 国 主要 城市 空气 质量 图 ( 见 图 10-34) ,其 中 用 到 的 主要 城市 坐标 数据 
和 完整 代码 ,请 到 本 书 官网 的 “下 载 专区 ”下 载 , 位 
名 是 “城市 空气 质量 图 表 中 城市 坐标 . txt”“ 全 国 主要 城市 的 空气 质量 . txt” 和 “城市 空气 质 


量 图 完整 代码 . txt”。 


于 “代码 ”目录 的 “第 10 章 ? 子 目录 下 ,文件 





图 10-34 全 国 主要 城 


市 空气 质量 图 


下 面 分 别 介绍 如 何 撰写 代码 生成 这 张 图 中 的 各 个 元 素 。 


1) 标题 组 件 
标题 就 是 这 幅 图 表 所 





展示 的 主题 ,标题 分 为 主 


E 标 题 和 副标题 ,还 可 以 为 标题 设置 链接 、 
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文字 属性 等 ,相应 的 代码 如 下 : 

title: { 
text: ' 全 国 主要 城市 空气 质量 '， // 主 标题 的 文字 
subtext: 'data from PM25.in', // 子 标题 的 文字 
sublink: 'http://www.pm25.in', // 子 标题 的 链接 
left: 'center', // 标 题 置 于 中 间 
textStyle: { // 设 置 主 标题 文字 的 风格 

color: '&fff' // 设 置 主 标题 的 颜色 
} 
} 
2) 工具 栏 组 件 


工具 栏 是 针对 制作 的 图 表 的 一 些 操作 ,例如 导出 图 片 .数据 视图 、 动 态 类 型 切换 、 数 据 区 
域 缩 放 , 重 署 等 工具 。 相 应 的 代码 如 下 : 








toolbox: { 
show : true, // 是 否 显示 工具 栏 ,默认 显示 


feature : { 


mark : (show: true}, // 这 个 在 Echarts 2.0 版 本 中 是 用 于 画 辅助 线 ,3.0 版 取消 了 


dataZoom : (show: true), // 数 据 区 域 缩放 
dataView : (show: true, readOnly: false], // 数 据 视 图 工具 
restore : (show: true], // 配 置 项 还 原 
saveAsImage : (show: true) // 保 存 为 图 片 





3) 提示 框 组 件 
当 单 击 或 者 滑 过 图 表 中 的 点 线 时 ,弹出 关于 这 些 点 线 的 数据 信息 。 相 应 的 代码 如 下 : 





tooltip: ( 
trigger: 'item' // 这 个 为 触发 类 型 ,Echarts 支持 两 种 触发 类 型 ,'item' 为 数据 项 图 
形 触发 ,'axis ' 为 坐标 轴 触 发 











4) 图 例 组 件 
图 例 组 件 展现 了 不 同系 列 的 标记 (symbol) 、 颜 色 和 名 字 。 可 以 通过 单 击 图 例 控 制 哪些 
系列 不 显示 。 相 应 代码 如 下 : 





legend: ( 
orient: 'vertical', // 图 例 布局 方向 ,有 水 平和 垂直 两 种 
top: 'bottom', // 置 于 底 端 


left: 'right', // 同 时 置 于 右边 
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data: ['pm2.5'], // 这 个 主要 用 于 显示 图 例 的 文本 和 图 标 , 图 标 默认 为 圆 形 
textStyle: { 
color: '&fff' // 图 例 字体 的 颜色 ,默认 为 白色 
) 
d 
/ [data 代码 写 得 较为 简略 ,还 可 以 详细 地 设置 如 下 : 
data: [{ 
name: 'pm2.5', // 图 例 的 文本 
icon:'circle', // 图 例 的 图 标 ,还 可 以 有 ' diamond! , 'triangle'^$ 
textStyle:{ 
color:'white' // 文 本 的 颜色 
} 
H, 











5) 视觉 组 件 
视觉 组 件 是 用 于 进行 “视觉 编码 ”, 也 就 是 将 数据 映射 到 视觉 元 素 ( 视 觉 通 道 ) ,在 图 中 表 
现 为 将 数据 根据 视觉 组 件 映射 到 不 同 颜色 的 图 例 。 相 应 代码 如 下 : 





visualMap: { 
min: 0, // 视 觉 组 件 最 小 值 
max: 200, // 视 觉 组 件 最 大 值 


calculable: true, // 是 否 启用 值 域 漫游 , 即 视觉 组 件 中 的 最 大 和 最 小 值 是 可 以 拖 动 的 
color: ['fd94e5d', '#eac736', '#50a3ba'], 
// 数 据 组 件 的 3 种 颜色 ,有 和 柔和 的 过 渡 
textStyle: { 
color: '#£ff'// 文 本 的 颜色 , 即 数字 0 200 的 颜色 
D 








6) 地 图 坐标 系 组 件 
用 于 地 图 的 绘制 ,支持 在 地 理 坐标 系 上 绘制 散 点 图 . 线 集 。 相 应 代码 如 下 : 








map: 'china', // 地 图 类 型 ,这 里 用 的 是 中 国 地 图 ,Echarts 还 支持 其 他 地 图 
// 图 形 上 的 文本 标签 ,可 用 于 说 明 图 形 的 一 些 数据 信息 ,如 值 .名 称 等 。 在 这 个 地 图 中 , 即 
为 省 的 名 称 
label: ( 
emphasis: { 
show: false // 如 果 改 为 true, 鼠 标 浮 在 省 份 上 ,会 显示 省 份 的 名 称 
} 
H 
// 地 图 区 域 的 多 边 形 图 形 样式 ,有 normal 和 emphasis 两 个 状态 normal 是 图 形 正常 的 样 
式 ,emphasis 是 图 形 高 亮 的 样式 ,例如 ,鼠标 悬浮 或 者 图 例 联 动 高 亮 的 时 候 会 使 用 
emphasis 作为 图 形 的 样式 
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itemstyle: { 
normal: ( 
areaColor: '$323c48', // 正 常情 况 显示 的 省 份 颜色 
borderColor: '#111' // 正 常情 况 下 省 份 的 边界 颜色 
Lh 
emphasis: { 
areaColor: '$2a333d' // 鼠 标 浮 在 省 份 上 时 , 即 高 亮 时 省 份 的 颜色 
} 
I 
) 
7) 系列 列表 


介绍 了 上 述 各 个 组 件 之 后 , 接 下 来 介绍 系列 列表 (series), 即 在 同一 个 图 表 上 可 以 制作 
一 系列 的 多 个 图 表 , 然 后 全 在 一 起 ,形成 一 个 图 表 。 每 个 系列 通过 type 决定 自己 的 图 表 类 
型 。ECharts 支持 多 种 图 表 类 型 ,包括 折线 图 (line) HERE Cbar) 、 饼 图 (pie) 、 散 点 (气泡 ) 图 
(scatter) 等 。 全 国 主 要 城市 空气 质量 图 采用 散 点 图 (scatter)。 系 列 组 件 还 将 数据 映射 到 地 
图 的 图 标 , 相 应 代码 如 下 : 





series: [ 


name: 'pm2.5', // 这 个 系列 图 表 的 名 称 
type: 'scatter' // 图 表 的 类 型 ,这 里 使 用 的 是 散 点 (气泡 ) 图 
coordinateSystem: 'geo', // 使 用 地 理 坐 标 系 , 还 有 二 维 坐标 系 和 极 坐 标 系 
data: convertData([ // 这 是 个 函数 ,将 数据 拼接 成 指定 格式 
D, 
symbolSize: 12, // 图 标的 大 小 
label: ( // 图 形 上 的 文本 标签 ,可 用 于 说 明 图 形 的 一 些 数据 信息 
normal: ( 
show: false // 图 标 上 是 否 显示 数值 ,如 果 改 为 true, 则 每 个 图 
标 上 有 相应 的 数值 
] 
emphasis: { 


show: false 


itemStyle: ( // 图 标的 样式 
emphasis: { // 图 的 高 亮 样式 


borderColor: '#fff', // 高 亮 时 的 边界 颜色 
borderWidth: 1 // 高 亮 时 的 边界 宽度 
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其 中 ,用 到 的 数据 转换 函数 定义 为 





var convertData- function (data) { 
var res- []; 
for(var i-0; i«data.length; it*) ( 
var geoCoord-geoCoordMap[data[i].name]; // 取 出 城市 的 坐标 
if (geoCoord) { 
res.push (geoCoord. concat (data [i] .value) ) ; // 将 空气 质量 值 拼接 在 坐标 后 面 


return res; 











制作 一 张 图 表 , 最 重要 的 是 数据 ,没有 数据 ,图 表 无 从 谈 起 ,所 以 在 系列 (series) 里 面 , 需 
要 先 将 数据 转换 为 指定 的 格式 ,在 全 国 空气 质量 图 中 ,格式 为 : 省 份 名 称 十 省 份 坐标 十 每 个 
省 份 的 空气 质量 值 , 然 后 ECharts 能 自动 将 数据 映射 到 地 图 的 图 标 上 。 


2 模拟 迁徙 图 


现在 制作 一 个 模拟 迁徙 图 ( 见 图 10-35)。 用 到 的 数据 和 完整 代码 ,到 本 书 官网 的 “下 载 
专区 ”下 载 ,位 于 “代码 ”目录 的 “第 10 章 ” 子 目录 下 ,文件 名 是 “模拟 迁徙 图 图 表 中 城市 坐标 . 
txt”“ 北 京 上 海 广州 三 个 城市 的 起 点 终点 数据 . txt”" 和 “模拟 迁徙 图 完整 代码 . txt”。 





图 10-35 ”模拟 迁徙 图 


因为 之 前 在 “全 国 主要 城市 空气 质量 图 ”中 已 经 分 析 了 各 个 组 件 的 代码 撰写 方法 ,所 以 
这 里 就 不 再 缆 述 。 这 里 主要 分 析 一 下 系列 (series) 部 分 ,因为 它 是 图 表 的 主体 。 

迁徙 图 使 用 的 还 是 中 国 地 图 ,然后 在 这 个 地 图 中 使 用 了 3 个 系列 ,其 中 两 个 是 type 一 
Tines 的 特效 线 配置 .主要 是 用 于 设置 航线 ,第 三 个 是 type 二 'effectScatter' 的 带 有 涟 满 特效 动 
画 的 散 点 (气泡 ) 图 ,用 于 设置 每 个 城市 的 涟 满 效果 。 也 就 是 说 ,对 于 每 一 个 城市 的 迁徙 图 ,都 
有 三 层 图 形 : 第 一 层 是 航线 的 特效 图 ,第 二 三 层 为 航线 图 和 城市 图 标 涟 满 图 。 接 下 来 先 看 
一 下 除了 数据 之 外 的 公共 变量 以 及 函数 : 
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// 这 是 图 中 飞机 图 形 的 路 径 ,用 于 设置 标记 (symbol) 
var planePath- 'path://M1705.06,1318.313v- 89.2541- 319. 9- 221.79910.073- 208.063c0.521- 84. 
662- 26.629- 121.796- 63.961- 121.491c- 37.332- 0.305- 64.482, 36.829- 63.961,121.49110.073, 208. 
0631- 319. 9, 221. 799v89. 2541330. 343- 157. 288112. 238, 241. 3081- 134. 449, 92. 93110. 531, 42. 
0341175.125- 42.9171175.125, 42. 91710. 531- 42.0341- 134.449- 92. 931112. 238- 241. 30811705. 06, 
1318.313z'; 
// 这 个 函数 用 于 取出 data 中 所 有 数据 的 起 点 和 终点 的 坐标 
Var convertData= function (data) { 
var res- []; 
for (var i-0; i«data.length; i++) ( 
var dataItem- data [i]; 
var fromCoord- geoCoordMap [dataltem[0].name]; 
var toCoord- geoCoordMap [dataItem[1].name]; 
if (fromCoord && toCoord) { 
res.push([{ 
coord: fromCoord 
ht 
coord: toCoord 
n; 


) 

return res; 
F 
var color= ['#a6c84c', '#ffa022', '#46bee9']; // 对 应 图 中 3 个 城市 迁徙 图 的 颜色 
var series- []; //3 个 系列 图 变量 ,可 以 push 方 法 将 属性 添加 进 series 中 








接 下 来 分 析 第 一 个 系列 , 即 特效 点 的 设置 : 








[[' 北 京 ', BJpata]，[' 上 海 ',sHData],[' 广 州 '， GZData]] .forEach (function (item, i) ( 
// 分 别 将 上 述 3 个 item 传 人 function 函数 
// 并 调用 function 函数 ,目的 是 绘制 3 个 城市 的 迁徙 图 
series.push(( 
name: item[0]* ' ToplO', ”// 系 列 名 称 


type: 'lines', // 系 列 使 用 的 图 类 型 
zlevel: 1, // 第 一 层 ,图 表 是 有 分 层 的 ,用 于 更 好 展示 图 表 
effect: { 

show: true, // 开 启 特效 , 即 为 图 中 白色 飞 点 

period: 6, // 特 效 点 飞行 的 时 间 

trailLength: 0.7, // 特 效 点 尾部 长 度 

color: '&fff', // 特 效 颜色 ,图 中 为 白色 


symbolSize: 3 // 特 效 点 的 大 小 
h 








大 数据 基础 编程 、 实 验 和 案例 教程 





linestyle: ( 
normal: ( 
color: color[i], // 特 效 路 径 的 颜色 ,如果 width 为 0, 则 不 显示 
width: 0, // 路 径 宽度 ,0 则 没有 显示 画 出 路 径 
curveness: 0.2 // 特 效 点 路 径 的 曲率 , 值 越 大 LE 


T 
data: convertData (item[1]) // 利 用 函数 求 出 航线 起 点 和 终点 的 坐标 , 当 绘 制 北京 迁 
徙 图 时 ,item[1] 即 为 BJData 
» 





然后 分 析 一 下 第 二 系列 , 即 飞 机 飞行 路 径 设 置 : 





name: item[0]+ ' Top10', // 系 列 名 称 


type: 'lines', // 特 效 线 图 
zlevel: 2, // 第 二 层 
effect: { // 图 中 飞机 特效 的 配置 
show: true, // 显 示 特 效 
period: 6, // 特 效 动画 的 时 间 
trailLength: 0, // 特 效 尾 迹 的 长 度 。 取 从 0 到 1 的 值 ,数值 越 大 尾 迹 越 长 
symbol: planePath, // 飞 机 图 形 的 路 径 
symbolSize: 15 // 飞 机 的 大 小 
}, 
lineStyle: ( // 飞 机 航线 风格 
normal: { 
color: color[i], // 飞 机 航线 的 颜色 
width: 1, // 飞 机 航线 的 宽度 


opacity: 0.4, // 飞 机 航线 的 透明 度 ,为 0 时 , 则 不 绘制 航线 
curveness: 0.2 // 飞 机 航线 的 弯曲 程度 


] 
data: convertData (item[1]) // 数 据 , 即 航线 的 起 点 和 终点 的 坐标 
}, 











最 后 第 三 个 系列 为 图 中 涟 满 效 果 的 设置 ,采用 带 有 涟 满 特效 动画 的 散 点 (气泡 ) 图 ,代码 





如 下 : 
t 
name: item[0]* ' Top10', // 系 列 名 称 
type: 'effectScatter', // 系 列 使 用 图 表 类 型 
coordinateSystem: 'geo', // 系 列 使 用 坐标 类 型 ,这 里 没 地 图 坐标 
zlevel: 2, // 第 二 层 


rippleEffect: { 
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brushType: 'stroke' ”// 波 纹 的 填充 方式 ,可 以 设置 为 'stroke' 和 'fill', 'stroke' 内 是 
在 点 外 围 设置 涟 满 , 'fil1' 涟 满 填 充 更 圆满 
) 
label: { // 设 置 图 标 说 明文 字 
normal: { 
show: true, 
position: 'right'v// 文 字 在 图 标 右边 
formatter: '(b)' // 设 置 显示 的 文字 ,可 以 设置 fa}、{b}、{c}, 分 别 表示 系列 名 \ 数 据 
名 ,数据 值 
i 
) 
symbolSize: function (val) ( 
return val[2] / 8; // 根 据 每 个 节点 的 值 , 设 置 涟 满 节 点 的 大 小 
}, 
itemStyle: { 
normal: { 
color: color[i]  // 设 置 涟 满 节 点 的 颜色 
n 
data: item[1].map(function (dataItem) ( 
// 设 置 数据 , 即 为 每 个 省 份 的 名 称 + 省 份 坐标 + 省 份 的 值 
return ( 
name: dataItem[1].name, 


value: geoCoordMap [datalItem[1].name].concat ([dataItem[1] .value]) 





n»: 








模拟 迁徙 图 比 之 前 的 全 国 主要 城市 空气 质量 图 难度 大 ,因为 模拟 迁徙 图 用 到 了 3 个 系 
列 图 表 , 即 用 了 3 种 类 型 的 图 表层 释 在 一 起 ,形成 一 幅 图 表 。 


10.6 本 章 小 结 


数据 可 视 化 在 大 数据 分 析 中 具有 非常 重要 的 作用 ,尤其 从 用 户 角 度 而 言 , 它 是 提升 用 户 
数据 分 析 效 率 的 有 效 手段 。 可 视 化 工具 包括 信息 图 表 工 具 、 地 图 工具 和 高 级 分 析 工 具 等 ,每 
种 工具 都 可 以 帮助 人 们 实现 不 同类 型 的 数据 可 视 化 分 析 , 可 以 根据 具体 应 用 场合 来 选择 适 
合 的 工具 。 

本 章 选 取 了 5 种 具有 代表 性 的 可 视 化 工具 ,包括 Easel. ly, D3, Tableau, Ei , ECharts 
等 ,简要 介绍 了 这 些 工 具 的 使 用 方法 。 这 些 工具 中 ,只 有 Tableau 只 能 在 Windows 系统 下 
使 用 ,暂时 不 支持 Linux 系统 ,其 他 工具 由 于 都 是 基于 浏览 器 的 ,都 可 以 同时 在 Linux 和 
Windows 系统 下 使 用 。 
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数据 采集 工具 的 安装 和 使 用 


数据 采集 是 大 数据 分 析 全 流程 的 重要 环节 ,典型 的 数据 采集 工具 包括 ETL 工具 、 日 志 
采集 工具 (如 Flume 和 Kafka) ,数据 迁移 工具 (如 Sqoop) 等 。 本 章 重点 选择 了 具有 代表 性 
的 数据 采集 工具 进行 介绍 ,包括 日 志 采 集 工 具 Flume、Kafka 和 数据 迁移 工具 Sqoop ,详细 介 
绍 这 些 工具 的 安装 和 使 用 方法 ,同时 给 出 相关 实例 来 加 深 对 工具 作用 及 其 使 用 方法 的 理解 。 


11.1 Flume 


Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 可 靠 的 ,分 布 式 的 海量 日 志 采 集 、 聚 合 和 传 
输 的 系统 ,Flume 支持 在 日 志 系 统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ;同时 ,Flume 提供 
对 数据 进行 简单 处 理 , 并 写 到 各 种 数据 接收 方 (可 定制 ) 的 能 力 。 


11.1.1 安装 Flume 


1 下 载 安装 文件 


登录 Linux 系统 ,在 Linux 系统 中 (不 是 Windows 系统 ) 中 打开 火狐 浏览 器 ,访问 网 址 
http://www. apache. org/dyn/closer. lua/flume/1. 7. 0/apache-flume-1. 7. 0-bin. tar. gz, 下 
载 Flume 安装 文件 ;或 者 也 可 以 访问 本 书 官网 的 “下 载 专区 ”, 在 “软件 "目录 下 下 载 Flume 
安装 文件 apache-flume-1. 7. 0-bin. tar. gz。 火 狐 浏 览 器 会 默认 把 下 载 文件 都 保存 到 当前 用 
户 的 下 载 目录 ,由 于 本 书 全 部 采用 hadoop 用 户 登 录 Linux 系统 .所 以 ,apache-flume-1.7. 0- 
bin. tar. gz 文件 会 被 保存 到 */home/hadoop/ 下 载 /” 目 录 下 。 

需要 注意 的 是 ,如 果 是 在 Windows 系统 下 面 下 载 安装 文件 apache-flume-1. 7. 0-bin. 
tar. gz, 则 需要 通过 FTP 软件 上 传 到 Linux 系统 的 “/home/hadoop/ 下 载 /” 目 录 下 ,这 个 目 
录 是 本 书 所 有 安装 文件 的 中 转 站 。 

下 载 完 安装 文件 以 后 ,需要 对 文件 进行 解压 。 按 照 Linux 系统 使 用 的 默认 规范 ,用 户 安 
装 的 软件 一 般 都 是 存放 在 /usr/local/ 目 录 下 。 使 用 hadoop 用 户 登录 Linux 系统 ,打开 一 个 
终端 ,执行 如 下 命令 : 





$cd ~ 
$sudo tar -zxvf ./ 下 载 /apache- flume-1.7.0-bin.tar.gz -C /usr/local 
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注意 : apache-flume-1. 7. 0-bin. tar. gz 解压 到 /usr/local 目录 下 ,命令 中 一 定 要 加 上 


-C, 否 则 会 出 现 归档 找 不 到 的 错误 。 


然后 将 解压 的 文件 的 名 称 修改 为 flume, 以 简化 操作 ,不 用 每 次 都 输入 很 长 的 文件 名 ， 


命令 如 下 : 








$cd /usr/local 
$sudo mv ./apache- flume- 1.7.0-bin ./flume 








2 配置 环境 变量 
使 用 vim 编辑 器 打开 一 /. bashrc 文件 ,命令 如 下 : 





$sudo vim ~/.bashrc 





然后 在 该 文件 开头 加 入 如 下 代码 : 








export JAVA HOME- /usr/lib/jvm/java- 8- openjdk- amd64; 
export FLUME HOME- /usr/local/flume 

export FLUME CONF DIR-$FLUME HOME/conf 

export PATH-$PATH:S$FLUME HOME/bin 








需要 注意 的 是 ,本 书 中 ,在 各 个 章节 都 有 对 一 /. bashre 文件 进行 修改 。 如 果 之 前 已 经 


在 该 文件 中 增加 了 其 他 内 容 , 不 要 删除 ,只 要 把 上 面 4 行内 容 继续 增加 到 该 文件 开头 即 可 ， 
另外 ,如 果 之 前 已 经 在 该 文件 中 加 入 “export JAVA_HOME — /usr/lib/jvm/java-8- 
openjdk-amd64;” 这 行 语句 ,那么 ,这 里 就 不 用 重复 添加 这 行 语句 。 


接 下 来 执行 如 下 命令 使 环境 变量 立即 生效 : 





$source ~/.bashrc 





然后 修改 配置 文件 flume-env. sh ,命令 如 下 : 





$cd /usr/local/flume 
$sudo mvflume -env.sh.template flume- env.sh 


$sudo vim flume- env.sh 





在 flume-env. sh 文件 开头 加 入 如 下 语句 : 











export JAVA HOME- /usr/lib/jwm/java- 8- openjdk- amd64; 





3. 启动 Hume 


执行 如 下 语句 启动 Flume: 
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$cd /usr/local/flume 





$./bin/flume- ng version 








启动 成 功 后 ,会 出 现 如 图 11-1 所 示 的 信息 。 








图 11-1 Flume 启动 成 功 后 的 信息 
需要 注意 的 是 ,如 果 系 统 里 之 前 已 经 安装 了 HBase, 按 照 上 述 方法 配置 启动 后 会 出 现 错 
误 :“ 找 不 到 或 无 法 加 载 主 类 org. apache. flume. tools. GetJavaProperty”。 可 以 通过 修改 
hbase-env. sh 文件 来 解决 这 个 错误 ,首先 使 用 vim 编辑 器 打开 hbase-env. sh 文件 ,命令 
如 下 : 





$cd /usr/local/hbase/conf 


$sudo vim hbase- env.sh 





在 hbase-env. sh 文件 中 找到 下 面 这 一 行内 容 : 





export HBASE CLASSPATH- /home/hadoop/hbase/conf 





然后 把 这 行 语句 注释 掉 , 即 在 语句 前 面 加 上 一 个 上 # ,添加 以 后 的 效果 如 下 : 








#export HBASE CLASSPATH- /home/hadoop/hbase/conf 








最 后 保存 该 文件 并 退出 vim 编辑 器 。 通 过 这 种 方式 ,就 可 以 顺利 启动 Flume, 
11.1.2 两 个 实例 

1. 使 用 Hume 接收 来 自 AvroSource 的 信息 

AvroSource 可 以 发 送 一 个 给 定 的 文件 给 Flume, Flume 接收 到 以 后 可 以 进行 相应 的 处 
理 , 例 如 显示 到 屏幕 上 。 


1) 创建 Agent 配置 文件 
使 用 如 下 命令 在 /usr/local/flume/conf 目录 下 创建 一 个 新 文件 avro. conf: 





$cd /usr/local/flume 


$sudo vim ./conf/avro.conf 





然后 在 avro. conf 文件 中 写 入 以 下 内 容 : 





al.sources- rl 





al.sinks-kl 
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al.channels=c1 

#Describe/configure the source 
al.sources.rl.type- avro 
al.sources.rl.channels- cl 
al.sources.rl.bind- 0.0.0.0 
al.sources.rl.port- 4141 # 注 意 这 个 端口 名 ,在 后 面 会 用 到 
#Describe the sink 

al.sinks.kl.type- logger 

#Use a channel which buffers events in memory 
al.channels.cl.type- memory 
al.channels.cl.capacity- 1000 
al.channels.cl.transactionCapacity- 100 
#Bind the source and sink to the channel 
al.sources.rl.channels- cl 


al.sinks.kl.channel- cl 











上 述 代码 也 可 以 直接 到 本 书 官网 * 下 载 专 区 "下载, 位 于 


下 ,文件 名 是 avro. conf, 





2) 启动 Flume Agent al 
执行 如 下 命令 启动 日 志 控 制 台 : 
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$/usr/local/flume/bin/flume- ng agent -c .- f /usr/local/flume/conf/avro.conf 


-n al- Dflume.root.logger- INFO, console 





执行 该 命令 以 后 ,屏幕 上 会 出 现 如 图 11-2 所 示 的 信息 。 


X! 一 D Terminal File Edit View Search Terminal Help 
16/11/23 14:27:03 INFO sink.DefaultSinkFactory: Creating instance of sink 
ype 
16/11/ onfigur 
to [r1, k1] 
16/1 tarting new configura sourceRunn 
lers: (ri-EventbrivenS ( Avro ce r btnd 

port: 4141 ) ]) pache.flune 
laultsinkprocessor@59f047: p n (} } }} channel 
1=org. apache. flume. c 
16/11/23 14: INFO nod 

/11/ INFO in 

CHANNE 


onent type: SO 


图 11-2 ”启动 日 志 控制 台 后 的 屏幕 信息 


3) 创建 指定 文件 
打开 另外 一 个 Linux 























目 如 下 命令 在 /usr/local/flume 目录 下 新 建 一 个 文件 log. 


221 


222 ， 大 数据 基础 编程 、 实 验 和 案例 教程 


"hello world": 


00, 并 在 文件 中 加 入 一 行内 








$cd /usr/local/flume 
$sudo sh - c 'echo "hello world" > /usr/local/flume/log.00"' 





再 打开 另外 一 个 Linux 终 站 






ij DUCTA P : 





$cd /usr/local/flume 
$./bin/flume-ng avro-client -- conf conf -H localhost -p 4141 -F /usr/local/ 
flume/log.00 











在 该 命令 中 ,4141 是 前 面 在 avro. conf 文件 里 写 入 的 端口 号 。 
执行 该 命令 以 后 ,AvroSource 就 向 Flume 了 一 个 文件 ,这 时 可 以 切换 到 之 前 的 日 
志 控 制 台所 在 的 终端 窗口 ,就 可 以 看 到 Flume 已 经 接收 到 了 信息 ,如 图 11-3 所 示 。 








7.0.0.1:4141] DISCONNECTED 
16/11/23 08:13:23 INFO ipc.NettyS [id: 0x81e59348, /127.0.0.1:47578 :> 
7.0.0.1:4141] UNBOUND 
:13:23 INFO ipc.NettyServer: [id: 0x81 
D 
ipc.NettyServer: 


: ipc.NettyServer: : i .0.1:47590 
7.0.0.1:4141] 
16/11/23 08:13:50 INFO tpc.Netty : [tdt 3 .0.0.1:47590 
7.0.0.1 : /127.0.0.1:4141 

: 147590 


16/11/23 08:13:50 INFO ipc y $ : Oxfo 5 dj .1:47590 :> 
7.0.0.1:4141] DISCONNECTED 

16/11/23 13 INFO ipc y yer: - 5 5i .0.1:47590 : 
7.0.0.1:4141] UNBOUND 

16/11/23 E INFO ipc.NettySe : exfoóo9c2d, / 0.0.1:47590 :> 
7.0.0.1 

16/11/23 08:13:50 INFO ipc.NettyServer: Connection to /1 0.1:47590 d 

ted. 

16/11/23 3 INFO sink.LoggerSink: Event: { heade body: 68 65 6C 6C 6F 
20 77 6F 72 6C 64 hello world ) 





图 11-3 日 志 控 制 台 终端 窗口 内 的 信息 
在 图 11-3 的 最 后 一 行 ,可 以 看 到 Flume 已 经 成 功 地 接收 到 了 "hello world", 
2 使 用 Hume 接收 来 自 NetcatSource 的 信息 


NetcatSource 可 以 把 用 户 实 时 输入 的 信息 不 断 地 发 送 给 Flume,Flume 接收 到 以 后 可 
以 进行 相应 的 处 理 , 例 如 显示 到 屏幕 上 。 


1) 创建 agent 配置 文件 
执行 如 下 命令 ,在 /usr/local/flume/conf/ 目 录 下 新 建 example. conf 文件 : 





$cd /usr/local/flume 


$sudo vim ./conf/example.conf 











在 example. conf 文件 里 写 入 以 下 内 容 : 
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#example.conf: A single- node Flume configuration 
fName the components on this agent 

al.sources-rl 

al.sinks-kl 

al.channels- cl 

$Describe/configure the source 
al.sources.rl.type-netcat 

al.sources.rl.bind- localhost 

al.sources.rl.port- 44444 # 记 住 该 端口 号 ,后 面 会 用 到 
#Describe the sink 

al.sinks.kl.type- logger 

$Use a channel which buffers events in memory 
al.channels.cl.type- memory 
al.channels.cl.capacity- 1000 
al.channels.cl.transactionCapacity- 100 

#Bind the source and sink to the channel 
al.sources.rl.channels-cl 


al.sinks.kl.channel- cl 











"XB 





上 述 代码 也 可 以 直接 到 本 书 官网 "下载 专 区 "下载 ,位 于 “代码 ”目录 的 “第 11 


下 ,文件 名 是 example. conf 





2) 启动 Flume Agent al 
执行 如 下 命令 启动 日 志 控 





If: 











$/usr/local/flume/bin/flume-ng agent --conf ./conf -- conf-file ./example. 


conf - - name al- D£lume.root.logger- INFO, console 








执行 该 命令 以 后 会 出 现 如 图 11-4 所 示 的 屏幕 人 





X — O Terminal File Edit view Search Terminal Help 


lel c1 type memory 
11/23 14:44:46 INFO node.Abstr fig o Created channel ci 
14:44:46 INF E actory ting instan ou 


44:46 INFO ory: Creating instance of s 
44:46 INFO node.AbstractConfigurationProvider: Channel c1 connected 
arting new configuration:( sourceRunn 


ventri ( rg.apache.flume.source.Ne our 
state: IDLE} s: unner: { policy:org.apache.flune 


:{ name:null counters:{} } }} channel 
Channel[name: c1}} } 
ation tarting Channel c1 
16/11/23 : rumentation.MonitoredCounterGroup: Monitore 
group for type: C B f gistered new MBean. 
Component typ CH 


nane 
3 14:44: 
23 14:44:46 

14:44:46 INF 3 

14:44:46 INFI e.Ne n.nio.ch. 
etChannel Impl 





图 11-4 启动 日 志 控 制 台 后 屏幕 显示 的 信息 
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再 打开 一 个 终端 ,输入 如 下 命令 : 





$telnet localhost 44444 











该 命令 中 的 44444 是 前 面 写 人 到 example. conf 文件 中 的 端口 号 。 执 行 该 命令 以 后 ,会 
出 现 如 图 11-5 所 示 的 信 





X! — 口 Terminal File Edit view Search Terminal Help 
dblabgubuntu:-$ telnet localhost 44444 


alhost. 


] 





图 11-5 执行 telnet 命令 后 的 屏幕 信息 








为 了 方便 区 分 ,这 里 把 这 个 终端 窗口 称 为 “NetcatSource 终端 窗口 ”; 然 后 可 以 在 这 
NetcatSource 终端 窗口 中 输入 任何 字符 ,这 个 窗口 里 输入 的 字符 都 会 被 实时 发 送 到 Flume 
Agent al, 另外 一 个 “日 志 控 制 台 ”终端 窗口 也 会 同步 显示 输入 的 内 容 , 例如 , 在 
NetcatSource 终端 窗口 输入 "hello world" ,如 图 11-6 所 示 。 











dblabQubun telnet localhost 44444 





图 11-6 在 NetcatSource 终端 窗口 输入 "hello world" 


“日 志 控 制 台 ”终端 窗口 也 会 同步 显示 "hello world" ,如 图 11-7 所 示 。 


Terminal File Edit View Search Terminal Help 


6 INFO source.Defaul 


rting new conf 
apache.fLume 


6 0 node.Applicatio 
6 INFO instrun 


node. Applicat 
le .Applicatio 
16/11/23 14:44:46 
11/23 14:44:46 IN ource.Ne B io. rv 
annelImpl[ j ] 
SOIRS gers } y: 68 65 6C 6C 6F 





图 11-7 “日 志 控 制 台 ”终端 窗口 会 同步 显示 "hello world" 


从 图 11-7 中 可 以 看 上 一 行 已 经 成 功 显示 了 "hello world" 
要 补充 说 朋 的 是 lume 只 能 — Ef] ,不 能 输入 中 文 。 
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11.2 Kafka 


Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 订 阅 消息 系统 , 它 可 以 处 理 消 费 者 规模 的 网 站 中 
的 所 有 动作 流 数据 。Kafka 的 目的 是 通过 Hadoop 和 Spark 等 的 并 行 加 载 机 制 来 统一 线 上 
和 离线 的 消息 处 理 。 


11.2.1 Kafka 相关 概念 


为 了 更 好 地 理解 和 使 用 Kafka, 这 里 介绍 一 下 Kafka 的 相关 概念 。 

(1) Broker: Kafka 集群 包含 一 个 或 多 个 服务 器 ,这 些 服 务 器 称 为 Broker, 

(2) Topic: 每 条 发 布 到 Kafka 集群 的 消息 都 有 一 个 类 别 ,这 个 类 别称 为 Topic。 物 理 
上 不 同 Topic 的 消息 分 开 存储 ,逻辑 上 一 个 Topic 的 消息 虽然 保存 于 一 个 或 多 个 Broker 
上 ,但 用 户 只 需 指 定 消息 的 Topic, 即 可 生产 或 消费 数据 ,而 不 必 关 心 数据 存 于 何 处。 

(3) Partition: 是 物理 上 的 概念 ,每 个 Topic 包含 一 个 或 多 个 Partition 。 

(4). Producer; 负责 发 布 消息 到 Kafka Broker. 

(5) Consumer; 消息 消费 者 ,向 Kafka Broker 读 取 消息 的 客户 端 。 

(6) Consumer Group: 每 个 Consumer 属于 一 个 特定 的 Consumer Group ,可 为 每 个 
Consumer 指定 group name, 若 不 指定 group name 则 属于 默认 的 group. 


11.2.2 安装 Kafka 














访问 Kafka 官网 下 载 页 面 (https://kafka. apache. org/downloads) ,下 载 Kafka 稳定 版 
本 0. 10.1.0 的 安装 包 kafka_2. 10-0. 10. 1. 0. tgz, 此 安装 包 内 已 经 附带 Zookeeper, 不 需要 
额外 安装 Zookeeper; 或 者 也 可 以 访问 本 书 官 网 的 “下 载 专区 ,软件 "目录 下 下 载 Kafka 安 
装 文件 kafka_2. 10-0. 10. 1. 0. tgz。 

下 载 完 安装 文件 以 后 ,需要 对 文件 进行 解压 。 按 照 Linux 系统 使 用 的 默认 规范 ,用 户 安 
装 的 软件 一 般 都 是 存放 在 /usr/local/ 目 录 下 。 使 用 hadoop 用 户 登 录 Linux 系统 ,打开 一 个 
终端 ,执行 如 下 命令 : 





$cd ~/ 下 载 

$sudo tar — zxf kafka 2.10-0.10.1.0.tgz -C /usr/local 
$cd /usr/local 

$sudo mv kafka 2.10- 0.10.1.0/ ./kafka 








$sudo chown -R hadoop ./kafka 





11.2.3 一 个 实例 


新 建 一 个 Linux 终端 ,执行 如 下 命令 启动 Zookeeper: 





$cd /usr/local/kafka 


$bin/zookeeper- server- start.sh config/zookeeper.properties 
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注意 : 执行 上 面 命 令 以 后 ,终端 窗口 会 返回 一 堆 信息 ,然后 就 停 住 不 动 ,没有 回 到 shell 
命令 提示 符 状 态 , 这 时 , 千 万 不 要 错误 地 认为 死机 了 ,而 是 Zookeeper 服务 器 启动 了 ,正在 处 
于 服务 状态 。 所 以 , 千 万 不 要 关闭 这 个 终端 窗口 ,一 旦 关闭 ,Zookeeper 服务 就 停止 了 。 
然后 新 建 第 二 个 终端 ,输入 如 下 命令 启动 Kafka: 





$cd /usr/local/kafka 
$./bin/kafka- server- start.sh config/server.properties 











同样 ,执行 上 面 命令 以 后 ,终端 窗口 会 返回 一 堆 信 息 , 然 后 就 停 住 不 动 了 ,没有 回 到 
shell 命令 提示 符 状态 ,这 时 , 千 万 不 要 错误 地 认为 死机 了 ,而 是 Kafka 服务 器 启动 了 ,正在 
处 于 服务 状态 。 所 以 , 千 万 不 要 关闭 这 个 终端 窗口 ,一旦 关闭 ,Kafka 服务 就 停止 了 。 

新 建 第 三 个 终端 ,输入 如 下 命令 : 





$cd /usr/local/kafka 
$./bin/kafka-topics.sh -- create -- zookeeper localhost:2181 - - replication- 
factor 1 -- partitions 1 -- topic dblab 











topic 是 发 布 消息 发 布 的 category, 以 单 节 点 的 配置 方式 创建 了 一 个 名 为 dblab 的 
topic。 可 以 用 list 命令 列 出 所 有 创建 的 topics ,来 查看 刚才 创建 的 topic 是 否 存在 ,命令 
如 下 : 





$cd /usr/local/kafka 
$./bin/kafka- topics.sh -- list - - zookeeper localhost:2181 











可 以 在 结果 中 查看 到 ,dblab 这 个 topic 已 经 存在 。 接 下 来 用 producer 生产 一 些 数据 ， 
命令 如 下 : 





$cd /usr/local/kafka 
$./bin/kafka- console- producer.sh -- broker- list localhost:9092 -- topic dblab 











该 命令 执行 后 ,可 以 在 该 终端 中 输入 以 下 信息 作为 测试 : 





hello hadoop 
hello xmu 
hadoop world 











然后 再 次 开启 新 的 第 四 个 终端 ,输入 如 下 命令 使 用 consumer 来 接收 数据 : 





$cd /usr/local/kafka 
$./bin/kafka- console- consumer.sh —— zookeeper localhost:2181 -- topic dblab —— 





from-beginning 








执行 该 命令 以 后 ,就 可 以 看 到 刚才 在 另外 一 个 终端 的 producer 产生 的 三 条 信息 "hello 
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hadoop" "hello xmu" 和 "hello world" ,说 明 Kafka 安装 成 功 。 
11.3 Sqoop 


Sqoop 是 一 款 开源 的 工具 ,主要 用 于 在 Hadoop 与 传统 的 关系 数据 库 之 间 进 行 数据 的 
传递 ,可 以 将 一 个 关系 数据 库 ( 如 MySQL Oracle, PostgreSQL 等 ) 中 的 数据 导入 到 Hadoop 
的 HDFS, HBase, Hive 中 ,也 可 以 将 Hadoop 的 数据 导入 到 关系 数据 库 中 。Sqoop 项 目 开 
始 于 2009 年 ,最 早 是 作为 Hadoop 的 一 个 第 三 方 模块 存在 ,后 来 为 了 让 使 用 者 能 够 快速 部 
署 ,也 为 了 让 开发 人 员 能 够 更 快速 地 迭代 开发 ,Sqoop 独立 成 为 一 个 Apache 项 目 。 

Sqoop 的 安装 环境 如 下 。 

(1) 操作 系统 : Linux 系统 (建议 Ubuntu 16. 04)。 

(2) Sqoop: 1.4.6 版 本 。 

(3) Hadoop: 2.7.1 版 本 。 

(4) MySQL: 5.7.15 版 本 。 

需要 注意 的 是 ,Sqoopl 与 Sqoop2 完全 不 兼容 ,1. 4.6 及 之 前 的 版 本 是 Sqoop1, 之 后 的 
版 本 是 Sqoop2。 本 书 使 用 Sqoopl. 4. 6。 


11.3.1 下 载 安装 文件 


登录 Linux 系统 (本 书 是 使 用 hadoop 用 户 名 登录 ) ,然后 在 Linux 的 浏览 器 (一 般 自 带 
的 是 火狐 浏览 器 ) 中 ,访问 Sqoop 官网 (http://sqoop. apache. org/) ,下 载 Sqoop 安装 文件 
sqoop-1. 4. 6. bin hadoop-2. 0. 4-alpha. tar. gz; 或 者 也 可 以 访问 本 书 官网 的 “下 载 专 区 ”,“ 软 
件 ” 目 录 下 下 载 Sqoop 安装 文件 sqoop-1. 4. 6. bin_hadoop-2. 0. 4-alpha. tar. gz。 火 狐 浏览 
器 会 默认 把 下 载 文件 都 保存 到 当前 用 户 的 下 载 目 录 , 由 于 本 书 全 部 采用 hadoop 用 户 登录 
Linux 系统 ,所 以 ,sqoop-1. 4. 6. bin_hadoop-2. 0. 4-alpha. tar. gz 文件 会 被 保存 到 */home/ 
hadoop/ 下 载 /” 目 录 下 。 

执行 如 下 命令 ,完成 安装 文件 解压 缩 : 





$c ~/ 下 载 
$sudo tar -zxvf sqoop-1.4.6.bin hadoop-2.0.4-alpha.tar.gz -C /usr/local 











将 解压 的 文件 的 名 称 修改 为 sqoop, 以 简化 操作 ,不 用 每 次 都 输入 很 长 的 文件 名 ,命令 
WF. 





$cd /usr/local 
$sudo mv sqoop- 1.4.6.bin hadoop-2.0.4- alpha sqoop 





接 下 来 把 sqoop 文件 夹 的 权限 赋予 当前 的 hadoop 用 户 ,命令 如 下 : 





$sudo chown -R hadoop:hadoop sqoop 
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11.3.2 修改 配置 文件 


执行 如 下 命令 把 /usr/local/sqoop/conf 目录 下 的 配置 文件 sqoop-env-template. sh 复 


制 一 份 ,并 命名 为 sqoop-env. sh: 





$cd sqoop/conf/ 
$cat sqoop- env- template.sh >> sqoop- env.sh 





使 用 vim 编辑 器 打开 sqoop-env. sh 文件 进行 编辑 : 





$cd /usr/local/sqoop/conf/ 
$vim sqoop- env.sh 





在 sqoop-env. sh 文件 中 添加 如 下 配置 信息 : 








exportHADOOP COMMON HOME- /usr/local/hadoop 

export HADOOP MAPRED HOME- /usr/local/hadoop 

export HBASE HOME- /usr/local/hbase 

export HIVE HOME- /usr/local/hive 

fexport ZOOCFGDIR=# 如 果 读 者 配置 了 Zookeeper, 也 需要 在 此 配置 Zookeeper 的 路 径 








11.3.3 配置 环境 变量 


使 用 vim 编辑 器 打开 一 /. bashrc 文件 ,命令 如 下 : 





$vim ~/.bashrc 





在 该 文件 开头 加 入 如 下 代码 : 





export SQOOP HOME= /usr/local/sqoop 
export PATH= $PATH:$SBT HOME/bin:$SQOOP HOME/bin 
export CLASSPATH- $CLASSPATH:$SQOOP HOME/lib 





保存 该 文件 ,并 退出 vim 编辑 器 。 接 下 来 执行 如 下 命令 使 得 环境 变量 立即 生效 : 








$source ~/.bashrc 








11.3.4 添加 MySQL 驱动 程序 


首先 需要 安装 MySQL ,之 前 在 介绍 第 8 章 时 ,已 经 按照 附录 BERT MySQL 数据 库 


的 安装 ,这 里 不 需要 重复 安装 。 


然后 需要 把 MySQL 驱动 程序 复制 到 $ SQOOP_HOME/lib 目录 下 。 之 前 在 介绍 第 8 


章 时 ,已 经 下 载 了 MySQL 驱动 程序 mysql-connector-java-5. 1. 40. tar. gz, 并 且 被 放 入 到 了 
“/home/hadoop/ 下 载 " 目 录 中 。 执 行 如 下 命令 解压 缩 文件 并 复制 到 Sqoop 安装 目录 下 : 
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S$cd ~/ 下 载 

$sudo tar - zxvf mysql- connector- java- 5.1.40.tar.gz # 解 压 MySQL 驱动 包 

SHET UMRE 8 章 已 经 解压 缩 了 该 文件 ,这 里 不 用 重复 执行 解压 缩 命令 

$ls # 这 时 就 可 以 看 到 解压 缩 后 得 到 的 目录 mysql- connector- java- 5.1.40 

$cp ./mysql- 

connector- java- 5.1.40/mysq1- connector- java- 5.1.40- bin.jar /usr/local/sqoop/lib 








11.3.5 测试 与 MySQL 的 连接 
首先 要 确保 MySQL 服务 已 经 启动 ,如 果 没 有 启动 ,执行 下 面 命令 启动 : 





$service mysql start 





然后 就 可 以 测 





Sqoop 与 MySQL 之 间 的 连接 是 否 成 功 ,命令 如 下 : 








$sqoop list- databases - - connect jdbc:mysql://127.0.0.1:3306/ - - username 
root -P 








系统 会 提示 输入 密码 ,本 书 的 MySQL 数据 库 的 root 用 户 的 密码 是 hadoop。 该 命令 执 
了 结果 如 图 11-8 所 示 。 


coni jdbc: 
Sqoop 
INFO manager ager: Preparing to 


2016 hing 
According to 


tes 
dblab@ubuntu 





图 11-8 sqoop list-databases 命令 执行 后 的 效果 


如 果 能 够 看 到 MySQL 数据 库 中 的 数据 库 列表 ,就 表示 Sqoop 安装 成 功 。 例 如 ,从 
图 11-8 给 出 的 信息 中 就 可 以 看 到 在 最 后 几 行 包含 了 如 下 的 数据 库 列表 : 








Information schema 
dblab 

hive 

mysql 

performance schema 
sys 

test 
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11.4 实例 : 编写 Spark 程序 使 用 Kafka 数据 源 


Spark Streaming 是 用 来 进行 流 计 算 的 组 件 。 可 以 把 Kafka( 或 Flume) 作 为 数据 源 , 让 
Kafka( 或 Flume) 产 生 数 据 发 送 给 Spark Streaming 应 用 程序 ,Spark Streaming 应 用 程序 再 
对 接收 到 的 数据 进行 实时 处 理 , 从 而 完成 一 个 典型 的 流 计算 过 程 。 这 里 仅 以 Kafka 为 例 进 
行 介 绍 ,Spark 和 Flume 的 组 合 使 用 也 是 类 似 的 ,这 里 不 再 效 述 。 

为 了 让 Spark Streaming 应 用 程序 能 够 顺利 使 用 Kafka 数据 源 , 在 安装 Kafka 的 时 候 ， 
一 定 要 注意 ,到 Kafka 官网 下 载 安 装 文件 时 ,一 定 要 选择 和 自己 计算 机 上 已 经 安装 的 Scala 
版 本 号 一 致 才 可 以 。 本 书 安装 的 Spark 版 本 号 是 1. 6. 2. Scala 版 本 号 是 2.10, 所 以 ,一 定 要 
选择 Kafka 版 本 号 是 2. 10 开头 的 。 例 如 ,到 Kafka 官网 中 ,可 以 下 载 安 装 文件 Kafka_2. 
10-0. 10. 1.0 ,前 面 的 2. 10 就 是 支持 的 scala 版 本 号 ,后 面 的 0. 10. 1.0 是 Kafka 自身 的 版 本 
号 。 正 因为 如 此 ,在 前 面 的 第 11. 2. 2 节 部 分 ,下 载 的 Kafka 安装 文件 是 kafka_2. 10-0. 10. 
1.0.tgz。 


11.4.1 Kafka 准备 工作 
1. 启动 Kafka 


首先 需要 启动 Kafka ,登录 Linux 系统 (本 书 统一 使 用 hadoop 用 户 登录 ) ,打开 一 个 终 
端 ,输入 下 面 命令 启动 Zookeeper 服务 : 





$cd /usr/local/kafka 


$./bin/zookeeper- server- start.sh config/zookeeper.properties 











注意 : 执行 上 面 命令 以 后 ,终端 窗口 会 返回 一 堆 信息 ,然后 就 停 住 不 动 了 ,没有 回 到 
shell 命令 提示 符 状 态 , 这 时 , 千 万 不 要 错误 地 认为 死机 了 ,而 是 Zookeeper 服务 器 启动 了 ， 
正在 处 于 服务 状态 。 所 以 , 千 万 不 要 关闭 这 个 终端 窗口 ,一 旦 关闭 ,Zookeeper 服务 就 停 
IET. 

另外 打开 第 二 个 终端 ,然后 输入 下 面 命令 启动 Kafka 服务 : 





$cd /usr/local/kafka 
$./bin/kafka- server- start.sh config/server.properties 











同样 ,执行 上 面 命令 以 后 ,终端 窗口 会 返回 一 堆 信 息 , 然 后 就 停 住 不 动 了 ,没有 回 到 
shell 命令 提示 符 状态 ,这 时 , 千 万 不 要 错误 地 认为 死机 了 ,而 是 Kafka 服务 器 启动 了 ,正在 
处 于 服务 状态 。 所 以 , 千 万 不 要 关闭 这 个 终端 窗口 .一旦 关闭 Kafka 服务 就 停止 了 。 

当然 ,还 有 一 种 方式 是 采用 下 面 加 了 & 的 命令 : 





$cd /usr/local/kafka 
$bin/kafka- server- start.sh config/server.properties & 
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这 样 ,Kafka 就 会 在 后 台 运行 ,即使 关闭 了 这 个 终端 ,Kafka 也 会 一 直 在 后 台 运 行 。 不 


过 ,这 样 做 ,有 时 候 往往 就 忘记 了 还 有 Kafka 在 后 台 运行 ,所 以 ,建议 暂时 不 要 用 &。 


2 测试 Kafka 是 否 正常 工作 
下 面 先 测试 一 下 Kafka 是 否 可 以 正常 使 用 。 请 再 另外 打开 第 三 个 终端 ,然后 输入 下 面 


命令 创建 一 个 自 定 义 名 称 为 wordsendertest 的 topic: 





$cd /usr/local/kafka 

$./bin/kafka- topics.sh -- create -- zookeeper localhost:2181 -- replication- 

factor 1 -- partitions 1 -- topic wordsendertest 

# 这 个 topic 称 为 wordsendertest,2181 是 Zookeeper 默认 的 端口 号 ,partition 是 topic 里 面 的 分 
区 数 ， replication- factor 是 备份 的 数量 ,在 Kafka 集群 中 使 用 ,这 里 单机 版 就 不 用 备份 了 

# 可 以 用 list 列 出 所 有 创建 的 topics, 来 查看 上 面 创建 的 topic 是 否 存 在 

$./bin/kafka- topics.sh -- list - - zookeeper localhost:2181 





这 个 名 称 为 wordsendertest 的 topic, 就 是 专门 负责 采集 发 送 一 些 单词 的 。 
下 面 用 producer 来 产生 一 些 数据 ,在 当前 终端 内 继续 输入 下 面 命令 : 





$./bin/kafka- console- producer.sh - -broker- list localhost:9092 - -topic 
wordsendertest 





上 面 命令 执行 后 ,就 可 以 在 当前 终端 内 用 键盘 输入 一 些 英文 单词 ,例如 可 以 输入 : 





hello hadoop 
hello spark 





一 个 消费 者 ,来 查看 刚才 producer 产生 的 数据 。 另 外 打开 第 四 个 终端 ,输入 下 面 命令 : 


这 些 单词 就 是 数据 源 ,这 些 单词 会 被 Kafka 捕捉 到 以 后 发 送 给 消费 者 。 现 在 可 以 启动 





$cd /usr/local/kafka 
$./bin/kafka- console- consumer.sh -- zookeeper localhost:2181 - -topic 
wordsender - - from- beginning 





可 以 看 到 ,屏幕 上 会 显示 出 如 下 结果 ,也 就 是 刚才 在 另外 一 个 终端 里 面 输入 的 内 容 : 








hello hadoop 
hello spark 








到 这 里 ,与 Kafka 相关 的 准备 工作 就 顺利 结束 了 。 
注意 : 所 有 这 些 终端 窗口 都 不 要 关闭 ,要 继续 留 着 后 面 使 用 。 
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11.4.2 Spark 准备 工作 
1 添加 相关 jxr 包 


Kafka 和 Flume 等 高 级 输入 源 ,需要 依赖 独立 的 库 (jar 文件 )。 按 照 之 前 在 第 9 章 中 已 
经 安装 好 的 Spark 版 本 ,这些 jar 包 都 不 在 里 面 ,为 了 证 明 这 一 点 ,现在 可 以 测试 一 下 。 请 打 
开 一 个 新 的 终端 ,然后 启动 spark-shell, 命 令 如 下 : 





$cd /usr/local/spark 
$./bin/spark- shell 











启动 成 功 后 ,在 spark-shell 中 执行 下 面 import 语句 : 





Scala» import org.apache.spark.streaming.kafka. _ 
€ console» :25: error: object kafka is not a member of package org.apache.spark.streaming 








import org.apache.spark.streaming.kafka. 





可 以 看 到 ,马上 会 报错 ,因为 找 不 到 相关 的 jar 包 。 所 以 ,需要 下 载 spark-streaming- 
kafka_2. 10. jar。 

在 Linux 系统 中 打开 浏览 器 ,访问 Spark 官网 (http://mvnrepository. com/artifact/ 
org. apache. spark/spark-streaming-kafka 2. 10) ,里 面 有 提供 spark-streaming-kafka_2. 10. 
jar 文 件 的 下 载 ,其 中 ,2. 10 表示 Scala 的 版 本 。 这 个 下 载 页 面 会 列 出 spark-streaming- 
kafka 2. 10. jar 的 很 多 版 本 ,这 里 选择 1. 6. 2 版 本 (因为 本 书 安装 的 Spark 版 本 是 1. 6. 2), 
可 以 单 击 1.6. 2 版 本 的 按钮 ,进入 spark-streaming-kafka_2. 10-1. 6. 2. jar 的 下 载 页 面 , 单 击 
下 载 。 下 载 后 的 文件 会 被 默认 保存 在 当前 Linux 登录 用 户 的 下 载 目录 下 ,本 书 统 一 使 用 
hadoop 用 户 名 登录 Linux 系统 ,所 以 ,文件 下 载 后 会 被 保存 到 “/home/hadoop/ 下 载 " 目 录 
下 面 。 

或 者 也 可 以 访问 本 书 官网 的 “下 载 专区 ”, 在 “软件 "目录 下 下 载 spark-streaming-kafka_ 
2. 10-1, 6. 2. jar 文件 。 

现在 需要 把 这 个 文件 复制 到 Spark 目录 的 lib 目录 下 。 请 新 打开 一 个 终端 ,输入 如 下 


命令 ， 





$cd /usr/local/spark/lib 

$mkdir kafka 

$cd ~ 

Sca FR 

$cp ./spark- streaming- kafka 2.10-1.6.2.jar /usr/local/spark/lib/kafka 











3X FÉ ,就 把 spark-streaming-kafka 2. 10-1. 6. 2. jar 文件 复制 到 了 /usr/local/spark/lib/ 
kafka 目录 下 。 
现在 还 需要 在 Linux 系统 中 打开 浏览 器 ,访问 网 址 https://www. versioneye. com/ 
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java/org. apache. spark:spark-streaming_2. 10/1. 6. 2, 下 载 另 外 一 个 文件 spark-streaming_ 
2. 10-1. 6. 2. jar; 或 者 也 可 以 访问 本 书 官网 的 “下 载 专 区 ”, 在 “软件 ”目录 下 下 载 spark- 
streaming_2. 10-1. 6. 2. jar 文件 。 其 中 ,2. 10 是 Scala 版 本 号 ,1. 6.2 是 Spark 版 本 号 。 

spark-streaming_2. 10-1. 6. 1. jar 下 载 成 功 以 后 ,默认 会 被 放 到 当前 Linux 登录 用 户 的 
下 载 目 录 下 ,本 书 统一 使 用 hadoop 用 户 名 登录 Linux 系统 ,所 以 ,文件 下 载 后 会 被 保存 到 
“/home/hadoop/ 下 载 "目录 下 面 。 现 在 需要 把 这 个 文件 复制 到 Spark 目录 的 lib 目录 下 。 
新 打开 一 个 终端 ,输入 下 面 命令 : 





$cd /usr/local/spark/lib 

$cd ~ 

sca FÉ 

$cp ./spark- streaming 2.10-1.6.1.jar /usr/local/spark/lib/kafka 











还 要 继续 把 Kafka 安装 目录 的 lib 目录 下 的 所 有 jar 文件 复制 到 /usr/local/spark/lib/ 
kafka 目录 下 ,在 终端 中 执行 下 面 的 命令 : 





$cd /usr/local/kafka/libs 
$1s 
$cp ./* /usr/local/spark/lib/kafka 





全 部 复制 过 来 以 后 ,有 些 jar 包 会 和 Spark 中 已 经 有 的 jar 包 发 生 冲 突 , 程 序 一 运行 就 
会 出 现 一 堆 错误 ,因此 ,需要 把 下 面 这 些 jar 包 删 除 掉 , 这 样 才 不 会 出 现 错误 ,命令 如 下 : 





$cd /usr/local/kafka/libs 
$1s 
$rm log4j * 


$rm jackson * 











2 修改 配置 文件 


现在 需要 配置 /usr/local/spark/conf 目录 下 的 spark-env. sh 文件 ,让 Spark 能 够 在 启 
动 的 时 候 找 到 spark-streaming-kafka_2. 10-1.6.2.jar 等 5 个 jar 文 件 。 使 用 vim 编辑 器 打 
Jf spark-env. sh 文件 ,命令 如 下 : 





$cd /usr/local/spark/conf 
$vim spark-env.sh 














因为 这 个 文件 之 前 已 经 反复 修改 过 ,目前 里 面 的 前 面 几 行 的 内 容 应 该 如 下 : 





export SPARK CLASSPATH- $SPARK CLASSPATH:/usr/local/spark/lib/hbase/ * 
export SPARK DIST CLASSPATH- $ (/usr/local/hadoop/bin/hadoop classpath) 
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只 要 简单 修改 一 下 ,把 /usr/local/spark/lib/kafka/ * 增加 进去 ,修改 后 的 内 容 如 下 : 








export 

SPARK CLASSPATH— $SPARK CLASSPATH:/usr/local/spark/lib/hbase/ * :/usr/local/spark/lib/ 
kafka/ * 

export SPARK DIST CLASSPATH-$ (/usr/local/hadoop/bin/hadoop classpath) 








保存 该 文件 后 ,退出 vim 编辑 器 。 
3. 启动 spark-shell 
执行 如 下 命令 启动 spark-shell: 





$cd /usr/local/spark 
$./bin/spark- shell 





启动 成 功 后 ,再 次 执行 如 下 命令 : 








Scala» import org.apache.spark.streaming.kafka._ 
// 会 显示 下 面 的 信息 
import org.apache.spark.streaming.kafka. 








功 。 


也 就 是 说 ,现在 使 用 import 语句 ,不 会 像 之 前 那样 出 现 错误 信息 了 ,说 明 已 经 导入 成 
至 此 ,就 已 经 准备 好 了 Spark 环境 , 它 可 以 支持 kafka 相关 编程 了 。 


11.4.3 编写 Spark 程序 使 用 Kafka 数据 源 


1 编写 生产 者 (producer) 程序 
打开 一 个 终端 ,然后 执行 如 下 命令 创建 代码 目录 和 代码 文件 : 








$cd /usr/local/spark/mycode 
Smkdir kafka 

$cd kafka 

$mkdir -p src/main/scala 

$cd src/main/scala 

$vim KafkaWordProducer.scala 








这 里 使 用 vim 编辑 器 新 建 KafkaWordProducer. scala, 它 是 用 来 产生 一 系列 字符 串 的 


程序 ,会 产生 随机 的 整数 序列 ,每 个 整数 被 当成 一 个 单词 ,提供 给 KafkaWordCount 程序 去 
进行 词 频 统 计 。 请 在 KafkaWordProducer. scala 中 输入 以 下 代码 : 








import java.util.HashMap 
import org.apache.kafka.clients.producer.(ProducerConfig, KafkaProducer, ProducerRecord) 
import org.apache.spark.streaming. - 

import org.apache.spark.streaming.kafka. _ 
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import org.apache.spark.SparkConf 
object KafkaWordProducer { 
def main(args: Array[String]) ( 
if(args.length«4) ( 
System.err.println("Usage: KafkaWordCountProducer« metadataBrokerList» 
«topic» "+ "«messagesPerSec»« wordsPerMessage» ") 
System.exit (1) 
val Array (brokers, topic, messagesPerSec, wordsPerMessage)- args 
//Zookeeper connection properties 
val props-new HashMap[String, Object] () 
props.put(ProducerConfig.BOOTSTRAP SERVERS CONFIG, brokers) 
props.put(ProducerConfig.VALUE SERIALIZER CLASS CONFIG, 
"org.apache.kafka.common.serialization.StringSerializer") 
props.put(ProducerConfig.KEY SERIALIZER CLASS CONFIG, 
"org.apache.kafka.common.serialization.StringSerializer") 


val producer- new KafkaProducer[String, String] (props) 








保存 后 退出 vim 编辑 器 。 上 述 代码 也 可 以 直接 到 本 书 官网 “下 载 专区 "下载 ,位 于 * 代 


人 码 " 目 录 的 “第 11 章 " 子 目录 下 ,文件 名 是 KafkaWordProducer. scala. 


2 编写 消费 者 (consumer) 程序 
继续 在 当前 目录 下 创建 KafkaWordCount. scala 代码 文件 ,命令 如 下 : 





$vim KafkaWordCount.scala 





单词 进行 词 频 统计 ,代码 内 容 如 下 : 


KafkaWordCount. scala 用 于 单词 词 频 统计 , 它 会 把 KafkaWordProducer 发 送 过 来 的 








import org.apache.spark. 

import org.apache.spark.SparkConf 

import org.apache.spark.streaming. 

import org.apache.spark.streaming.kafka. 

import org.apache.spark.streaming.StreamingContext. _ 

import org.apache.spark.streaming.kafka.KafkaUtils 

object KafkaWordCount { 

def main (args:Array [String]){ 

StreamingExamples.setStreamingLogLevels () 

val sc= new SparkConf () .setAppName ("KafkaWordCount") .setMaster ("local [2]") 
val ssc- new StreamingContext (sc, Seconds (10) ) 

Ssc.checkpoint ("file:///usr/local/spark/mycode/kafka/checkpoint") 

// 设 置 检查 点 ,如 果 存 放 在 HDFS 上 面 , 则 写成 类 似 ssc. checkpoint ("/user/hadoop/checkpoint") 
这 种 形式 ,但 是 ,要 启动 hadoop 
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val zkQuorum-"localhost:2181" //Zookeeper 服务 器 地 址 


val group- "1" / [topic 所 在 的 group, 可 以 设置 为 自己 想 要 的 名 称 ,例如 不 用 1, 
而 是 val group= "test- consumer- group" 

val topics- "wordsender" //topics 的 名 称 

val numThreads=1 // 每 个 topic 的 分 区 数 


val topicMap= topics.split(",").map(( ,numThreads.toInt)).toMap 
val lineMap-KafkaUtils.createStream(ssc, zkQuorum, group, topicMap) 
vallines-lineMap.map( . 2) 

val words-lines.flatMap( .split(" ")) 

val pair-words.map(x-» (x,1)) 

val wordCounts-pair.reduceByKeyAndWindow( * , - ,Minutes(2),Seconds (10),2) // 这 行 代码 
的 含义 在 下 一 节 的 窗口 转换 操作 中 会 有 介绍 

wordCounts.print 

Ssc.start 

Ssc.awaitTermination 

) 

} 











保存 后 退出 vim 编辑 器 。 上 述 代码 也 可 以 直接 到 本 书 官网 “下 载 专区 ”下 载 ,位 于 “ 代 
码 ” 目 录 的 “第 11 章 ” 子 目录 下 ,文件 名 是 KafkaWordCount. scala; 


3. 编写 日 志 格式 设置 程序 
继续 在 当前 目录 下 创建 StreamingExamples. scala 代码 文件 ,命令 如 下 : 





$vim StreamingExamples.scala 











下 面 是 StreamingExamples. scala 的 代码 ,这 段 代 码 的 功能 是 用 于 设置 log4j 的 日 志 
格式 : 





import org.apache.spark.Logging 
import org.apache.10g4j.(Level, Logger) 
/** Utility functions for Spark Streaming examples * / 
object StreamingExamples extends Logging { 
/** Set reasonable logging levels for streaming if the user has not configured log4j. * / 
def setStreamingLoglevels() { 
val log4jInitialized-Logger.getRootlogger.getAllAppenders.hasMoreElements 
if(!log4jInitialized) ( 
//We first log something to initialize Spark's default logging, then we override the 
//1ogging level 
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logInfo("Setting log level to [WARN] for streaming example." 
" To override add a custom 10g4j.properties to the classpath.") 
Logger.getRootLogger.setLevel(Level.WARN) 
T 


) 











上 述 代 码 也 可 以 直接 到 本 书 官网 下载 专 区 "下载, 位 于 “代码 ”目录 的 “第 11 章 ? 子 目录 
下 ,文件 名 是 StreamingExamples. scala。 


4 编译 打包 程序 


经 过 前 面 的 步 又 ,在 /usr/local/spark/mycode/kafka/src/main/scala 目录 下 ,就 有 了 如 
下 3 个 代码 文件 : 





KafkaWordProducer.scala 
KafkaWordCount.scala 
StreamingExamples.scala 





执行 下 面 的 命令 : 





$cd /usr/local/spark/mycode/kafka/ 
$vim simple.sbt 





在 simple. sbt 中 输入 以 下 代码 : 





name := "Simple Project" 

version :="1.0" 

scalaVersion :="2.10.5" 

libraryDependencies*- "org.apache.spark" $$"spark- core" $"1.6.2" 
libraryDependencies*- "org.apache.spark" $"spark- streaming 2.10" $"1.6.2" 
libraryDependencies*- "org.apache.spark" $"spark- streaming- kafka 2.10" $"1.6.2" 











保存 文件 退出 vim 编辑 器 。 上 述 代码 也 可 以 直接 到 本 书 官网 “下 载 专区 ”下 载 ,位 于 
“代码 ”目录 的 “第 11 章 ” 子 目录 下 ,文件 名 是 simple. sbt, 
执行 下 面 命令 ,进行 打包 编译 : 





$cd /usr/local/spark/mycode/kafka/ 
$/usr/local/sbt/sbt package 











打包 成 功 后 ,就 可 以 执行 程序 测试 效果 了 。 
5. 运行 程序 


首先 启动 Hadoop, 因为 如 果 前 面 KafkaWordCount. scala 代码 文件 中 采用 了 ssc. 
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checkpoint("/user/hadoop/checkpoint") 这 种 形式 ,这 时 的 检查 点 是 被 写 入 HDFS, 因 此 需 
要 启动 Hadoop, JAZ Hadoop 的 命令 如 下 : 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 





启动 Hadoop 成 功 以 后 ,就 可 以 测试 刚才 生成 的 词 频 统 计 程 序 了 。 

要 注意 ,之 前 已 经 启动 了 Zookeeper 服务 ,启动 了 Kafka 服务 ,因为 之 前 那些 终端 窗口 
都 没有 关闭 ,所 以 ,这 些 服务 一 直 都 在 运行 。 如 果 不 小 心 关闭 了 之 前 的 终端 窗口 , 那 就 参照 
前 面 的 内 容 , 再 次 启动 Zookeeper 服务 ,启动 Kafka 服务 。 

打开 一 个 终端 ,执行 如 下 命令 ,运行 KafkaWordProducer 程序 ,生成 一 些 单词 (是 一 堆 
整数 形式 的 单词 ) : 





$cd /usr/local/spark 

$/usr/local/spark/bin/spark- submit -- class "KafkaWordProducer" 
/usr/local/spark/mycode/kafka/target/scala- 2.10/simple- project 2.10- 1.0.jar localhost: 
9092 wordsender 3 5 











注意 : 上 面 命 令 中 ,localhost:9092 wordsender 3 5 是 提供 给 KafkaWordProducer 程序 
的 4 个 输入 参数 ,第 1 个 参数 localhost:9092 是 Kafka 的 broker 的 地 址 ,第 2 个 参数 
wordsender 是 topic 的 名 称 , 在 KafkaWordCount. scala 代码 中 已 经 把 topic 名 称 固 定 为 
wordsender, 所 以 ,KafkaWordCount 程序 只 能 接收 名 称 为 wordsender 的 topic。 第 3 个 参 
数 3 表示 每 秒 发 送 3 条 消息 ,第 4 个 参数 5 表示 每 条 消息 包含 5 个 单词 (实际 上 就 是 5 个 
整数 ) 。 

执行 上 面 命令 后 ,屏幕 上 会 不 断 滚动 出 现 新 的 单词 ,如 下 : 





33634 
94081 
03393 
08409 
87295 
26485 
09609 
40081 
18374 
40657 
39150 
93967 
18743 
95626 
48868 
00337 
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这 个 终端 窗口 就 放 在 这 里 , 千 万 不 要 关闭 ,让 它 一 直 不 断 发 送 单词 ;然后 新 打开 一 个 终 
端 ,执行 下 面 命令 ,运行 KafkaWordCount 程序 ,执行 词 频 统 计 : 





$cd /usr/local/spark 

$/usr/local/spark/bin/spark- submit - - class "KafkaWordCount" 
/usr/local/spark/mycode/kafka/target/scala-2.10/simple- project 2.10-1. 
0.jar 





运行 上 面 命令 以 后 ,就 启动 了 词 频 统计 功能 ,屏幕 上 就 会 显示 如 下 信息 : 





SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding in [jar:file:/usr/local/spark/lib/kafka/s1lf4j- 1og4j12- 1.7.21.jar!/ 
org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar: file:/usr/local/hadoop/share/hadoop/common/lib/slf4j — 
10g4j12-1.7.10.jar!/org/s1f4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.s1f4j.org/codes.htmlé multiple bindings for an explanation. 

SLF4J: Actual binding is of type [org.s1f4j.impl.Log4jLoggerFactory] 











这 些 信息 说 明 ,Spark Streaming 程序 顺利 接收 到 了 Kafka 发 来 的 单词 信息 ,并 进行 词 
频 统计 得 到 结果 。 


11.5 7k ME 


日 志 采 集 工 具 Flume 和 Kafka 经 常用 在 Hadoop 和 Spark 生态 系统 中 ,用 来 进行 日 志 
信息 的 实时 采集 。 本 章 首先 介绍 了 日 志 采 集 工 具 Flume 和 Kafka 的 安装 和 使 用 方法 ,并 给 
出 了 几 个 实例 演示 工具 的 具体 用 法 。 

Sqoop 提供 了 在 Hadoop 和 关系 数据 库 之 间 进 行 数据 相互 导入 导出 操作 的 功能 ,大 大 
提高 了 数据 交换 的 效率 ,不 需要 手工 编写 大 量 代码 对 数据 进行 操作 。 本 章 内 容 介绍 了 
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Sqoop 的 安装 和 使 用 方法 ,在 后 面 第 12 章 中 ,会 继续 使 用 Sqoop 工具 来 实现 MySQL 和 
HBase, Hive 之 间 的 数据 迁移 。 

本 章 最 后 详细 介绍 了 如 何 编写 Spark Streaming 应 用 程序 来 “消费 ”Kafka 的 数据 源 , 通 
过 这 个 实例 ,可 以 从 总 体 上 了 解 Spark 和 Kafka 等 工具 之 间 的 组 合 使 用 方法 。 
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大 数据 课程 综合 实验 案例 


本 案例 涉及 数据 预 处 理 、 存 储 、 查 询 和 可 视 化 分 析 等 数据 处 理 全 流程 所 涉及 的 各 种 典型 
操作 ,涵盖 Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse 等 系统 和 软件 的 安装 和 
使 用 方法 。 本 案例 适合 高 校 大 数据 教学 ,可 以 作为 学 习 大 数据 课程 后 的 综合 实践 案例 。 通 
过 本 案例 ,有 助 于 读者 综合 运用 大 数据 课程 知识 和 各 种 工具 软件 ,实现 数据 全 流程 操作 。 


12.1 案例 简介 


本 节 介 绍 案例 的 目的 、 适 用 对 象 . 时 间 安 排 、 预 备 知识 ,硬件 要 求 .软件 工具 、 数 据 集 和 案 
例 任务 等 内 容 。 
12.1.1 案例 目的 

(1) 熟悉 Linux 56. MySQL, Hadoop, HBase, Hive, Sqoop, R, Eclipse 等 系统 和 软件 
的 安装 和 使 用 。 

(2) 了 解 大 数据 处 理 的 基本 流程 。 

(3) 熟悉 数据 预 处 理 方法 。 

(4) 熟悉 在 不 同类 型 数据 库 之 间 进 行 数据 相互 导入 和 导出 。 

(5) 熟悉 使 用 R 语言 进行 可 视 化 分 析 。 

(6) 熟悉 使 用 Eclipse 编写 Java 程序 操作 HBase 数据 库 。 


12.1.2 适用 对 象 


(1) 高 校 (高 职 ) 教 师 、 学 生 。 
(2) 大 数据 学 习 者 。 


12.1.3 时间 安排 


本 案例 可 以 作为 大 数据 入 门 级 课程 结束 后 的 “大 作业 ”, 或 者 可 以 作为 学 生财 期 或 寒假 
大 数据 实习 实践 基础 案例 ,建议 在 一 周 左 右 完成 本 案例 。 


12.1.4 预备 知识 


需要 案例 使 用 者 ,已 经 学 习 过 大 数据 相关 课程 (例如 入 门 级 课程 “大 数据 技术 原理 与 应 
用 ”) ,了 解 大 数据 相关 技术 的 基本 概念 与 原理 .了解 Windows 操作 系统 、Linux 操作 系统 、 














242 ` 


大 数据 基础 编程 、 实 验 和 案例 教程 


大 数据 处 理 架构 Hadoop 的 关键 技术 及 其 基本 原理 、 列 族 数据 库 HBase 概念 及 其 原理 、 数 
据 仓 库 概念 与 原理 .关系 型 数据 库 概 念 与 原理 、R 语言 概念 与 应 用 等 。 

不 过 ,由 于 本 案例 提供 了 全 部 操作 细节 ,包括 每 个 命令 和 运行 结果 ,所 以 ,即使 没有 相关 
背景 知识 ,也 可 以 按照 操作 说 明 顺利 完成 全 部 实验 。 


12.1.5 硬件 要 求 


本 案例 可 以 在 单机 上 完成 ,也 可 以 在 集群 环境 下 完成 。 单 机 上 完成 本 案例 实验 时 , 建 
计算 机 硬件 配置 为 : 500GB 以 上 硬盘 ,8GB 以 上 内 存 。 


12.1.6 软件 工具 


本 案例 所 涉及 的 系统 及 软件 包括 Linux 系统 .MySQL Hadoop, HBase, Hive, Sqoop, 
R、Eclipse 等 ( 见 图 12-1)。 





议 


e, 

















HBase Hive R 
Eclipse Sqoop 
Hadoop MySQL 
Linux 5i 











图 12-1 本 案例 所 涉及 的 系统 及 软件 


相关 软件 的 版 本 建议 如 下 : 
(1) Linux: Ubuntu 16. 04, 
(2) MySQL: 5. 7.16, 

(3) Hadoop: 2. 7. 1. 

(4) HBase:1. 1. 5. 

(5) Hive:l1.2. 1. 

(6) Sqoop:1. 4. 6. 

(7) R:3. 2.3, 

(8) Eclipse:3. 8. 


12.1.7 数据 集 
网 站 用 户 购物 行为 数据 集 , 包 括 2000 万 条 记录 。 
12.1.8 案例 任务 


图 12-2 展示 了 案例 全 流程 的 各 个 环节 ,具体 而 言 ,本 案例 需要 完成 以 下 实验 任务 。 
(1) 安装 Linux 操作 系统 。 

(2) 安装 关系 型 数据 库 MySQL. 

(3) 安装 大 数据 处 理 框架 Hadoop。 
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(4) 安装 列 族 数据 库 HBase。 

(5) 安装 数据 仓库 Hive。 

(6) 安装 Sqoop。 

(7) 安装 R。 

(8) 安装 Eclipse。 

(9) 对 文本 文件 形式 的 原始 数据 集 进 行 预 处 理 。 
(10) 把 文本 文件 的 数据 集 导 入 到 数据 仓库 Hive P. 
OD 对 数据 仓库 Hive 中 的 数据 进行 查询 分 析 。 
(12) 使 用 Sqoop 将 数据 从 Hive 导入 MySQL。 

(13) 使 用 Sqoop 将 数据 从 MySQL 导入 HBase。 
(14) 使 用 HBase Java API 把 数据 从 本 地 导入 到 HBase 中 。 
(15) 使 用 R 对 MySQL 中 的 数据 进行 可 视 化 分 析 。 









导入 
HBase A. 


导入 分 析 







导入 | 

~ 
KATIM 
网 站 用 户 行为 数据 集 ”数据 仓库 Hive MySQL 利用 R 进 行 可 视 化 分 析 


Ex 
人 


as 
i 


SQL 查询 分 析 


图 12-2 案例 任务 概览 图 


2 实验 环境 搭建 


为 了 顺利 完成 本 案例 各 项 实验 ,需要 完成 以 下 系统 和 软件 的 安装 。 

d) 安装 Linux 系统 : 如 果 未 安装 ,参照 第 2 章 的 相关 内 容 , 完 成 Linux 系统 的 安装 。 
(2) 安装 Hadoop: 如 果 未 安装 ,参照 第 3 章 的 相关 内 容 , 完 成 Hadoop 的 安装 。 

G) 安装 MySQL; 如 果 未 安装 ,参照 附录 B 的 相关 内 容 , 完 成 MySQL 的 安装 。 

(4) 安装 HBase: 如 果 未 安装 ,参照 第 5 章 的 相关 内 容 , 完 成 HBase 的 安装 。 

CO 安装 Hive: 如 果 未 安装 ,参照 第 8 章 的 相关 内 容 , 完 成 Hive 的 安装 。 

(6) 安装 Sqoop: 如 果 未 安装 ,参照 第 11 章 的 内 容 , 完 成 Sqoop 的 安装 。 

C) 安装 Eclipse: 如 果 未 安装 ,参照 第 2 章 的 相关 内 容 , 在 Linux 系统 安装 Eclipse. 
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12.3 实验 步骤 概述 


本 案例 共 包含 4 个 实验 步骤 。 

CD 本 地 数据 集 上 传 到 数据 仓库 Hive. 

(2) Hive 数据 分 析 。 

(3) Hive, MySQL. HBase 数据 互 导 。 

CD 利用 R 进行 数据 可 视 化 分 析 。 

下 面 4 个 表 ( 表 12-1 一 表 12-4) 分 别 给 出 了 每 个 实验 步骤 所 需 的 知识 储备 .训练 技能 和 















































任务 清单 。 
表 12-1 本 地 数据 集 上 传 到 数据 仓库 Hive 
项 解 R 
所 需 知识 储备 | Linux 系统 基本 命令 ,Hadoop 项 目 结构 、 分 布 式 文件 系统 (HDFS) 的 概念 及 其 基本 原 
理 数 据 仓库 的 概念 及 其 基本 原理 ,数据 仓库 Hive 的 概念 及 其 基本 原理 
训练 技能 Hadoop 的 安装 与 基本 操作 、HDFS 的 基本 操作 、Linux 的 安装 与 基本 操作 、 数 据 仓库 
Hive 的 安装 与 基本 操作 、 基 本 的 数据 预 处 理 方法 
任务 清单 安装 Linux 系统 ,数据 集 下 载 与 查看 ,数据 集 预 处 理 , 把 数据 集 导 入 分 布 式 文件 系统 
HDFS 中 ,在 数据 仓库 Hive 上 创建 数据 库 
表 12-2 Hive 数据 分 析 
项 B 解 R 
所 需 知识 储备 | 数据 仓库 Hive 的 概念 及 其 基本 原理 .SQL 语句 、 数 据 库 查 询 分 析 
训练 技能 数据 仓库 Hive 的 基本 操作 、 创 建 数据 库 和 表 、 使 用 SQL 语句 进行 查询 分 析 
任务 清单 启动 Hadoop 和 Hive、 创 建 数据 库 和 表 、 简 单 查询 分 析 、 查 询 条 数 统计 分 析 、 关 键 字条 
件 查询 分 析 、 根 据 用 户 行为 分 析 、 用 户 实时 查询 分 析 
表 12-3 Hive, MySQL, HBase 数据 互 导 
项 H 解 4 
所 需 知识 储备 数据 仓库 Hive 的 概念 与 基本 原理 ,关系 数据 库 的 概念 与 基本 原理 .SQL 语句 、 列 族 数 
E 据 库 HBase 的 概念 与 基本 原理 
训练 技能 数据 仓库 Hive 的 基本 操作 、 关 系数 据 库 MySQL 的 基本 操作 、Sqoop 工具 的 使 用 方 
法 .HBase API 的 Java 编程 .Eclipse 开发 工具 的 使 用 方法 
任务 清单 Hive 预 操作 ,使 用 Sqoop 将 数据 从 Hive 导入 MySQL, {E Sqoop 将 数据 从 MySQL 
导入 HBase, fH] HBase Java API 把 数据 从 本 地 导入 到 HBase 中 
表 12-4 利用 R 进行 数据 可 视 化 分 析 
项 H 解 4 
所 需 知识 储备 | 数据 可 视 化 .人 R 语言 
训练 技能 利用 及 语言 对 MySQL 数据 库 中 的 数据 进行 数据 可 视 化 分 析 、R 的 安装 、 相 关 可 视 化 
依赖 包 的 安装 与 使 用 、 各 种 可 视 化 图 表 的 生成 方法 
任务 清单 安装 R 语言 包 ,安装 可 视 化 依赖 包 、 柱 状 图 可 视 化 分 析 、 散 点 图 可 视 化 分 析 、 地 图 可 视 





化 分 析 





第 12 章 ”大 数据 课程 综合 实验 案例 


12.4 本 地 数据 集 上 传 到 数据 仓库 Hive 


本 节 介绍 实验 数据 集 的 下 载 .数据 集 的 预 处 理 和 导入 数据 库 等 。 
12.4.1 实验 数据 集 的 下 载 


本 案例 采用 的 数据 集 为 user. zip, 它 包含 一 个 大 规模 数据 集 raw_user. csv( 包 含 2000 
万 条 记录 ) 和 一 个 小 数据 集 small user. csv( 只 包含 30 万 条 记录 )。 小 数据 集 small, user. 
csv 是 从 大 规模 数据 集 raw_user. csv 中 抽取 的 一 小 部 分 数据 。 之 所 以 抽取 出 一 少 部 分 记录 
单独 构成 一 个 小 数据 集 ,是 因为 在 第 一 遍 跑 通 整 个 实验 流程 时 ,会 遇 到 各 种 错误 各 种 问题 ， 
先 用 小 数据 集 测试 ,可 以 大 量 节约 程序 运行 时 间 。 等 到 第 一 次 完整 实验 流程 都 顺利 跑 通 以 
后 ,可 以 最 后 用 大 规模 数据 集 进行 最 后 的 测试 。 可 以 采用 下 面 两 种 方法 中 的 其 中 一 种 方法 
完成 实验 数据 集 的 下 载 。 

(1) 在 Windows 系统 中 ,访问 本 书 官网 的 “下 载 专区 ”, 找 到 “数据 集 " 目 录 , 把 该 目录 下 
的 user. zip 文件 下 载 到 本 地 ;然后 使 用 FTP 方式 (可 以 参照 第 2 章 中 介绍 的 FTP 使 用 方 
法 ) ,把 Windows 系统 中 的 user. zip 文件 上 传 到 Linux 系统 的 “/home/hadoop/ 下 载 /” 目 
XT. 

(2) 登录 Linux 系统 (本 书 统一 采用 hadoop 用 户 登录 ) ,并 在 Linux 系统 中 打开 浏览 器 
(一 般 都 是 火狐 浏览 器 ) ;然后 在 Linux 系统 的 浏览 器 中 访问 本 书 官网 的 “下 载 专区 ”, 找 到 
"Bf" Hose ,把 该 目录 下 的 user. zip 文件 下 载 到 本 地 。 如 果 在 下 载 时 没有 修改 文件 保存 
路 径 , 火 狐 浏 览 器 会 默认 把 文件 保存 在 当前 用 户 的 下 载 目 录 下 ,因为 本 书 是 采用 hadoop 用 
户 名 登录 了 Linux 系统 ,所 以 ,下 载 后 的 文件 会 被 浏览 器 默认 保存 到 “/home/hadoop/ 下 
载 /" 目 录 下 面 。 

通过 上 面 的 任意 一 种 方法 ,都 可 以 顺利 把 数据 集 user. zip 文件 下 载 到 Linux 系统 的 
“/home/hadoop/ 下 载 /” 目 录 下 面 。 现 在 ,在 Linux 系统 中 打开 一 个 终端 (可 以 使 用 快捷 键 
Ctrl 十 Alt 十 T) ,执行 下 面 命令 (Shell 命令 ) : 




















$cd /home/hadoop/ 下 载 
$1s 











通过 上 面 命 令 , 进 入 到 user. zip 文件 所 在 的 目录 ,并 且 可 以 看 到 有 个 user. zip 文件 。 

注意 : 如 果 把 user. zip 下 载 到 其 他 目录 ,进入 到 你 自己 的 存放 user. zip 的 目录 。 

下 面 需 要 把 user. zip 进行 解压 缩 , 首 先 建立 一 个 用 于 运行 本 案例 的 目录 bigdatacase， 
执行 以 下 命令 : 





$cd /usr/local 

$1s 

$sudo mkdir bigdatacase 

# 这 里 会 提示 你 输入 当前 用 户 (本 书 是 hadoop 用 户 名 ) 的 密码 

# 下 面 给 hadoop 用 户 赋予 针对 bigdatacase 目录 的 各 种 操作 权限 
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$sudo chown -R hadoop:hadoop ./bigdatacase 
$cd bigdatacase 

# 下 面 创 建 一 个 dataset 目录 ,用 于 保存 数据 集 
$mkdir dataset 

# 下 面 就 可 以 解压 缩 user.zip 文 件 

$cd^ // 表 示 进 入 hadoop 用 户 的 目录 

$ca 下 载 

$1s 

$unzip user.zip -d /usr/local/bigdatacase/dataset 
$cd /usr/local/bigdatacase/dataset 

$1s 











现在 就 可 以 看 到 在 dataset 目录 下 有 两 个 文件 : raw, user. csv 和 small user. csv。 执 行 
下 面 命令 取出 前 面 5 条 记录 看 一 下 : 





$head -5 raw user.csv 





可 以 看 到 ,前 5 行 记录 如 下 : 





user id,item id,behavior type,user geohash,item category,time 
10001082, 285259775,1, 971k14c, 4076, 2014- 12- 08 18 

10001082, 4368907, 1, , 5503, 2014- 12- 12 12 

10001082, 4368907, 1, , 5503, 2014- 12- 12 12 

10001082, 53616768, 1, , 9762,2014- 12- 02 15 











可 以 看 出 ,每 行 记录 都 包含 5 个 字段 ,数据 集中 的 字段 及 其 含义 如 下 。 

(1) user_id( 用 户 id) 。 

(2) item_id( 商 品 id) 。 

(3) behaviour_type( 包 括 浏览 .收藏 .加 购物 车 .购买 ,对 应 取 值 分 别 是 1.2、.3、4) 。 

(4) user_geohash( 用 户 地 理 位 置 哈 希 值 ,有 些 记 录 中 没有 这 个 字段 值 ,所 以 后 面 会 用 
脚本 做 数据 预 处 理 时 把 这 个 字段 全 部 删除 ) 。 

(5) item_category( 商 品 分 类 ) 。 

(6) time( 该 记录 产生 时 间 ) 。 


12.4.2 数据 集 的 预 处 理 
1. 删除 文件 第 一 行 记 录 ( 即 字段 名 称 ) 


raw user 和 small user 中 的 第 一 行 都 是 字段 名 称 , 把 文件 中 的 数据 导入 到 数据 仓库 
Hive 中 时 ,不 需要 第 一 行 字段 名 称 ,因此 ,在 做 数据 预 处 理 时 ,需要 删除 第 一 行 ,执行 以 下 命 


令 (Shell 命令 ): 
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$cd /usr/local/bigdatacase/dataset 

# 下 面 删除 raw_user 中 的 第 一 行 

$sed -i 'ld' raw user 

# 上 面 的 14 表 示 删 除 第 一 行 , 同 理 ,3d 表 示 删 除 第 3 行 ,nd 表示 删除 第 n 行 

# 下 面 删除 small user 中 的 第 一 行 

$sed -i 'ld' small user 

# 下 面 再 用 head 命 令 去 查看 文件 的 前 5 行 记录 ,这 时 看 不 到 字段 名 称 这 一 行 了 


Shead - 5 raw user.csv 





$head - 5 small user.csv 








等 所 


接 下 来 的 操作 中 ,都 是 用 small user. csv 这 个 小 数据 集 进行 操作 ,这样 可 以 节省 时 间 。 
有 流程 都 跑 通 以 后 ,就 可 以 使 用 大 数据 集 raw_user. csv 去 测试 一 遍 整 个 案例 。 


2 对 字段 进行 预 处 理 
下 面 对 数据 集 进行 预 处 理 , 包 括 为 每 行 记录 增加 一 个 id 字段 (让 记录 具有 唯一 性 )、 增 














加 一 个 省 份 字段 (用 来 后 续 进 行 可 视 化 分 析 ) ,并且 丢弃 user_geohash 字段 (后 面 分 析 不 需 
要 这 个 字段 ) 。 

下 面 要 建 一 个 脚本 文件 pre. deal. sh ,把 这 个 脚本 文件 放 在 dataset 目录 下 ,和 数据 集 
small_user. csv 放 在 同一 个 目录 下 : 

$cd /usr/local/bigdatacase/dataset 

$vim pre deal.sh 

上 面 使 用 vim 编辑 器 新 建 了 一 个 pre deal. sh 脚本 文件 ,在 这 个 脚本 文件 中 加 入 下 面 
代码 : 








#!/bin/bash 
# 下 面 设 置 输入 文件 ,把 用 户 执行 pre deal. sh 命令 时 提供 的 第 一 个 参数 作为 输入 文件 名 称 
infile-$1 
# 下 面 设 置 输出 文件 ,把 用 户 执行 pre_deal.sh 命令 时 提供 的 第 二 个 参数 作为 输出 文件 名 称 
outfile- $2 
# 注 意 , 最 后 的 $infile> Soutfile 必须 跟 在 } 和 ' 这 两 个 字符 的 后 面 
awk -F "," 'BEGIN( 
srand(); 
id-0; 
Province [0]- "Ill f& "; Province [1]- "Il P8 "; Province [2] "河南 ";Province[3]= 
"itj d " ; Province[4]- "BEP "; Province[5]- "PI S ffr "; Province[6]- " E ff "; 
Province[7]- "b XC Tli "; Province [8] "3 He li "; Province [9] - X Ht rli "; Province [10] - "8 
EE ";Province[11]- "Jj" J& "; Province[12]- "JJ "; Province[13]- "zi Bi "; 
Province [14]- "浙江 ";Province[15]= "St JM "; Province[16]— "fr SI "; Province [17]- "西藏 "; 
Province [18]- "IT. "; Province [19]- "ill M " ; Province [20]- "iB dE "; 
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Province[21]=" 黑 龙 江 "; Province [22] — 3 $k"; Province [23]=" 辽 宁 "; Province [24]- "iT. 
3 ";Province[25]- "H ft "; Province[26]- "FEIfE " ; Province [27]- "DU JI] "; 

Province[28]- "安徽 "; Province[29]- "'T M "; Province [30]- "ifs Bj "; Province [31] "fr i "; 
Province [32]- "澳门 ";Province[33]= "台湾 "; 


id-idtl1; 

value- int (rand() * 34); 

print id"\t"$1"\t"$2"\t"$3"\t"$5"\t"substr ($6,1,10) "\t"Province [value] 
)' Sinfile»S$outfile 











上 述 代码 也 可 以 直接 到 本 书 官网 下 载 专区 ”下 载 ,位 于 “代码 ”目录 的 “第 12 章 ? 子 目录 
下 ,文件 名 是 pre deal. sh。 为 了 更 好 理解 上 面 的 代码 ,这 里 给 出 awk 命令 的 基本 形式 : 


awk-F "%"”' 处 理 逻 辑 ' Sinfile» Soutfile 


使 用 awk 可 以 逐 行 读 取 输 入 文件 ,并 对 逐 行进 行 相 应 操作 。 其 中 ,-F 参数 用 于 指出 每 
行 记 录 的 不 同 字段 之 间 用 什么 字符 进行 分 隔 ,这 里 是 用 逗号 进行 分 隔 。 处 理 逻 辑 代码 需要 
用 两 个 英文 单 引 号 引起 来 。$infile 是 输入 文件 的 名 称 ,这 里 会 输入 raw user. csv. 
$ outfile 表示 处 理 结束 后 输出 的 文件 名 称 ,后 面 会 使 用 user table. txt 作为 输出 文件 名 称 。 

在 上 面 的 pre deal. sh 代码 的 处 理 迎 辑 部 分 ,srand() 用 于 生成 随机 数 的 种 子 ,id 是 为 数 
据 集 新 增 的 一 个 字段 , 它 是 一 个 自 增 类 型 ,每 条 记录 增加 1, 这 样 可 以 保证 每 条 记录 具有 唯 
一 性 。 这 里 再 为 数据 集 新 增 一 个 省 份 字 段 ,用 来 进行 后 面 的 数据 可 视 化 分 析 。 为 了 给 每 条 
记录 增加 一 个 省 份 字段 的 值 , 这 里 首先 用 Province[] 数 组 用 来 保存 全 国 各 个 省 份 信息 , 然 
后 ,在 遍历 数据 集 raw. user. csv 的 时 候 , 每 当 遍 历 到 其 中 一 条 记录 MAE value= intrand 
O * 34) 语 句 随 机 生成 一 个 0 一 33 的 整数 ,作为 Province 省 份 值 ;然后 从 Province[ ] 数 组 当 
中 获取 该 省 份 值 对 应 的 省 份 名 称 , 增 加 到 该 条 记录 中 。 

substr( 串 6,1,10) 这 个 语句 是 为 了 截取 时 间 字 段 time 的 年 、 月 、 日 ,方便 后 续 存 储 为 
date 格式 。awk 每 次 遍历 到 一 条 记录 时 ,每 条 记录 包含 6 个 字段 ,其 中 ,第 6 个 字段 是 时 间 
字段 。substr( $6,1,10) 语 句 就 表示 获取 第 6 个 字段 的 值 ,截取 前 10 个 字符 ,第 6 个 字段 
是 类 似 "2014-12-08 ”18" 这 样 的 字符 串 ( 也 就 是 表示 2014 4 12 H 8 H 18 ID substrC$ 6. 
1,10) 截 取 后 ,就 丢弃 了 小 时 ,只 保留 了 年 、 月 、 日 。 

另外 ,代码 中 还 包含 下 面 这 条 语句 : 





print id"\t"$1"\t"$2"\t"$3"\t"$5"\t"substr ($6, 1, 10) "\t"Province [value] 











在 这 行 语句 中 ,丢弃 了 每 行 记录 的 第 4 个 字段 ,所 以 ,没有 出 现 $4。 生 成 后 的 文件 是 \t 
进行 分 隔 , 这 样 ,后 续 去 查看 数据 的 时 候 , 屏 幕 上 的 显示 效果 会 更 加 整齐 美观 ,每 个 字段 在 排 
版 的 时 候 会 对 齐 显 示 ; 相 反 , 如 果 用 逗号 分 隔 , 显 示 效 果 会 比较 乱 。 

最 后 保存 pre deal. sh 代码 文件 ,退出 vim 编辑 器 。 

执行 pre deal. sh 脚本 文件 ,对 small user. csv 进行 数据 预 处 理 , 命 令 如 下 : 
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$cd /usr/local/bigdatacase/dataset 
$bash ./pre deal.sh small user.csv user table.txt 











可 以 查看 生成 的 user_table. txt, 但 是 ,不 要 直接 打开 ,因为 文件 过 大 ,直接 打开 会 出 错 ， 
可 以 使 用 head 命令 查看 前 10 行 数据 : 





$head -10 user table.txt 





执行 上 面 命令 以 后 ,可 以 得 到 如 下 结果 : 





10001082 285259775 
10001082 4368907 
10001082 4368907 
10001082 53616768 
10001082 151466952 
10001082 53616768 
10001082 290088061 
10001082 298397524 
10001082 32104252 
10 10001082 323339743 


4076 2014-12-08 广东 
5503 ”2014-12-12 河南 
5503 ”2014-12-12 甘肃 
9762 2014-12-02 北京 市 
5232 2014-12-12 安徽 
9762 2014-12-02 北京 市 
5503 2014-12-12 山东 
10894 2014-12-12 福建 
6513 2014-12-12 湖南 
10894 2014-12-12 山东 


v0 0 - Oo OU & QM n 
[rr 











12.4.3 导入 数据 库 


下 面 把 user_table. txt 中 的 数据 导入 到 数据 仓库 Hive 中 。 为 了 完成 这 个 操作 ,首先 需 
要 把 user table. txt 上 传 到 分 布 式 文件 系统 HDFS 中 ;然后 在 Hive 中 创建 一 个 外 部 表 , 完 
成 数据 的 导入 。 


1. 启动 HDFS 


HDFS 是 Hadoop 的 核心 组 件 ,因此 ,需要 使 用 HDFS, 必 须 首先 安装 Hadoop。 这 里 假 
设 已 经 安装 了 Hadoop ,本 书 使 用 的 是 Hadoop2. 7. 1 版 本 ,安装 目录 是 /usr/local/hadoop。 
下 面 登录 Linux 系统 ,打开 一 个 终端 ,执行 下 面 命令 启动 Hadoop: 





$cd /usr/local/hadoop 
$./sbin/start-all.sh 





然后 执行 jps 命令 看 一 下 当前 运行 的 进程 : 





$jps 











如 果 出 现下 面 这 些 进程 ,说 明 Hadoop 已 经 启动 成 功 : 
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3765 NodeManager 
3639 ResourceManager 
3800 Jps 

3261 DataNode 

3134 NameNode 

3471 SecondaryNameNode 











2. 把 user_tabletxt 上 传 到 HDFS 中 


现在 需要 把 Linux 本 地 文件 系统 中 的 user_table. txt 上 传 到 分 布 式 文件 系统 HDFS 
中 ,并 存放 在 HDFS 中 的 /bigdatacase/dataset 目录 下 。 

首先 需要 在 HDFS 的 根 目录 下 面 创建 一 个 新 的 目录 bigdatacase, 并 在 这 个 目录 下 创建 
一 个 子 目 录 dataset, 具 体 命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -mkdir -P /bigdatacase/dataset 











然后 把 Linux 本 地 文件 系统 中 的 user. table. txt 上 传 到 分 布 式 文件 系统 HDFS 的 
/ bigdatacase/dataset 目录 下 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -put /usr/local/bigdatacase/dataset/user table.txt 
/bigdatacase/dataset 





现在 可 以 查看 一 下 HDFS 中 的 user table. txt 的 前 10 条 记录 ,命令 如 下 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -cat /bigdatacase/dataset/user table.txt | head - 10 











3. 在 Hve 上 创建 数据 库 


这 里 假设 已 经 完成 了 Hive 的 安装 ,并 且 使 用 MySQL 数据 库 保 存 Hive 的 元 数据 。 本 
书 安装 的 是 Hive2. 1. 0 版 本 ,安装 目录 是 /usr/local/hive。 

下 面 在 Linux 系统 中 再 新 建 一 个 终端 (可 以 在 刚才 已 经 建 好 的 终端 界面 的 左上 角 , 单 击 
“终端 "菜单 ,在 弹出 的 子 菜单 中 选择 “新 建 终端 ")。 因 为 需要 借助 于 MySQL 保存 Hive 的 
元 数据 ,所 以 , 先 启 动 MySQL 数据 库 , 可 以 在 终端 中 输入 如 下 命令 : 





$service mysql start # 可 以 在 Linux 的 任何 目录 下 执行 该 命令 











由 于 Hive 是 基于 Hadoop 的 数据 仓库 .使 用 HiveQL 语言 撰写 的 查询 语句 ,最 终 都 会 
被 Hive 自动 解析 成 MapReduce 任务 由 Hadoop 去 具体 执行 ;因此 ,需要 启动 Hadoop, 然 后 
再 启动 Hive。 由 于 前 面 已 经 启动 了 Hadoop, 所 以 ,这 里 不 需要 再 次 启动 Hadoop。 下 面 在 
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这 个 新 的 终端 中 执行 下 面 命令 进入 Hive: 





$cd /usr/local/hive 
$./bin/hive # 启 动 Hive 











启动 成 功 以 后 ,就 进入 了 hive 二 命令 提示 符 状态 ,可 以 输入 类 似 SQL 语句 的 HiveQL 
语句 。 


hive 二 命令 提示 符 状 态 下 的 Hive 命令 ): 





hive> create database dblab; 
hive»use dblab; 











4 创建 外 部 表 


关于 数据 仓库 Hive 的 内 部 表 和 外 部 表 的 区 别 ,可 以 查看 相关 网 络 资料 ,这 里 不 再 缆 
述 。 本 书 采用 外 部 表 方 式 。 现 在 要 在 数据 库 dblab 中 创建 一 个 外 部 表 bigdata_user, 它 包含 
字段 (id,uid,item_id,behavior_type,item_category,date,province) ,在 hive 命令 提示 符 下 
输入 如 下 命令 : 





hive > CREATE EXTERNAL TABLE dblab.bigdata user (id INT, uid STRING, item id STRING, 
behavior type INT,item category STRING,visit date DATE,province STRING) COMMENT 'Welcome 
to xmudblab!' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION '/ 
bigdatacase/dataset'; 











5 查询 数据 


上 面 已 经 成 功 把 HDFS 中 的 /bigdatacase/dataset 目录 下 的 数据 加 载 到 了 数据 仓库 
Hive 中 ;然后 在 hive 之 命令 提示 符 状 态 下 执行 下 面 命令 查看 表 的 信息 





hive>use dblab; // 使 用 dblab 数据 库 
hive» show tables; // 显 示 数 据 库 中 的 所 有 表 
hive» show create table bigdata user; // 查 看 bigdata_user 表 的 各 种 属性 





上 面 的 show create table bigdata user 语句 执行 后 ,会 得 到 如 下 信息 : 





OK 

CREATE EXTERNAL TABLE ‘bigdata user^ ( 
^id int, 
^uid" string, 


"item id" string, 
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"behavior type^ int, 
"item category? string, 
"visit date date, 
"province? string) 
COMMENT 'Welcome to xmu dblab!' 
ROW FORMAT SERDE 
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ( 
'field.delim'- 'Nt', 





'serialization.format NE!) 

STORED AS INPUTFORMAT 
'org.apache.hadoop.mapred.TextInputFormat "' 

OUTPUTFORMAT 
"org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat "' 

LOCATION 
'hd£s://localhost:9000/bigdatacase/dataset' 

TBLPROPERTIES ( 
"numFiles'- '1l', 

15590786', 

'transient lastDdlTime'- '1480217306') 





'totalSize 


Time taken: 0.715 seconds, Fetched: 24 row(s) 





还 可 以 执行 下 面 命令 查看 表 的 简单 结构 : 





hive> desc bigdata user; 








执行 结果 如 下 : 

OK 

id int 
uid string 
item id string 
behavior type int 
item category string 
visit date date 
province string 


Time taken: 0.267 seconds, Fetched: 7 row(s) 





现在 可 以 使 用 下 面 命令 查询 相关 数据 : 





hive> select * from bigdata user limit 10; 


hive»select behavior type from bigdata user limit 10; 
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12.5 Hive 数据 分 析 


本 节 介绍 简单 查询 分 析 、 查 询 条 数 统计 分 析 、 关 键 字条 件 查询 分 析 、 根 据 用 户 行为 分 析 
户 实时 查询 分 析 。 
12.5.1 简单 查询 分 析 

首先 执行 一 条 简单 的 指令 : 














和 








hive»select behavior type from bigdata user limit 10; // 查 看 前 10 位 用 户 对 商品 的 行为 





执行 结果 如 下 : 





[E 


Time taken: 2.561 seconds, Fetched: 10 row(s) 











如 果 要 查 出 每 位 用 户 购买 商品 时 的 多 种 信息 ,输出 语句 格式 如 下 : 
select 列 1, 列 2,…, 列 n from 表 名 ; 
例如 ,查询 前 20 位 用 户 购买 商品 时 的 时 间 和 商品 的 种 类 ,语句 如 下 : 





hive> select visit date, item category from bigdata user limit 20; 





执行 结果 如 下 : 





OK 

2014-12-08 4076 
2014-12-12 5503 
2014-12-12 5503 
2014-12-02 9762 
2014-12-12 5232 








2014-12-02 9762 
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2014-12-12 5503 
2014-12-12 10894 
2014-12-12 6513 
2014-12-12 10894 
2014-12-12 2825 
2014-11-28 2825 
2014-12-15 3200 
2014-12-03 10576 
2014-11-20 10576 
2014-12-13 10576 
2014-12-08 10576 
2014-12-14 7079 
2014-12-02 6669 
2014-12-12 5232 
Time taken: 0.401 seconds, Fetched: 20 row(s) 











有 时 在 表 中 查询 可 以 利用 能 套 语句 ,如 果 列 名 太 复 杂 可 以 设置 该 列 的 别名 ,以 简化 操作 
的 难度 ,举例 如 下 : 





hive> select e.bh, e.it from (select behavior type as bh, item category as it from bigdata - 


user) ase limit 20; 











E ifiji& AJP , "behavior type as bh. item category as it” 是 为 behavior type 设置 别名 
bh ,为 item category 设置 别名 it, FROM 的 括号 里 的 内 容 , 也 设置 了 别名 e, 这 样 调用 时 就 
可 以 使 用 e. bh 和 e.it, 可 以 简化 代码 。 

上 述 代码 执行 结果 如 下 : 





4076 
5503 
5503 
9762 
5232 
9762 
5503 
10894 
6513 
10894 
2825 
2825 
3200 
10576 


B e G a ie pe RE gm a a a e a 
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10576 
10576 
10576 
7079 
6669 


[rr 


5232 
Time taken: 0.374 seconds, Fetched: 20 row(s) 











12.5.2 查询 条 数 统计 分 析 
1 用 聚合 函数 count0 计 算出 表 内 有 多 少 行 数据 





hive» select count(* ) from bigdata user; 





执行 结果 如 下 : 





WARNING: Hive- on- MR is deprecated in Hive 2 and may not be available in the future versions. 
Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases. 
Query ID-hadoop 20161127192506 cb00d4al- b9e3- 426e- a2be- d971a61f686b 
Total jobs-1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 
set hive.exec.reducers.bytes.per.reducer- < number» 
In order to limit the maximum number of reducers: 
set hive.exec.reducers.max- « number? 
In order to set a constant number of reducers: 
set mapreduce.job.reduces- « number» 
Job running in-process (local Hadoop) 
2016- 11- 27 19:25:10,555 Stage- 1 map- 0$, reduce- 0$ 
2016- 11- 27 19:25:12,606 Stage- 1 map- 100%, reduce- 100$ 
Ended Job- job 10callO72810798 0001 
MapReduce Jobs Launched: 
Stage- Stage- 1: HDFS Read: 62395912 HDFS Write: 0 SUCCESS 
Total MapReduce CPU Time Spent: 0 msec 
OK 
300000 
Time taken: 6.418 seconds, Fetched: 1 row(s) 











可 以 看 到 ,在 执行 结果 的 最 后 面 有 一 个 数字 是 300000, 因 为 导入 到 Hive 中 的 small | 
user. csv 中 包含 了 300000 条 记录 。 
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2 在 函数 内 部 加 上 distinct, 查 出 uid 不 重复 的 数据 有 多 少 条 
命令 如 下 : 





hive»select count(distinct uid) from bigdata user; 





执行 结果 如 下 : 





OK 
270 
Time taken: 4.689 seconds, Fetched: 1 row(s) 











3. 查询 不 重复 的 数据 有 多 少 条 (为 了 排除 客户 刷 单 情 况 ) 
命令 如 下 : 





hive> select count(* ) from (select uid,item id,behavior type,item category,visit date, 
province from bigdata user groupby uid,item id,behavior type,item category,visit date, 


province having count(* )-1)a; 





执行 结果 如 下 : 





OK 
284183 
Time taken: 16.05 seconds, Fetched:1 row (s) 














可 以 看 出 ,排除 掉 重复 信息 以 后 ,只 有 284183 RER. ma ELE EI Je Ei d OO 
别名 ,就 是 上 面 的 a, 否则 很 容易 出 现 如 图 12-3 所 示 的 错误 。 





图 12-3 错误 信息 


12.5.3 ”关键 字条 件 查询 分 析 
l 以 关键 字 的 存在 区 间 为 条 件 的 查询 


使 用 where 关键 字 可 以 缩小 查询 分 析 的 范围 和 精确 度 。 
CD 查询 2014 年 12 月 10 日 到 2014 年 12 月 13 日 有 多 少 人 浏览 了 商品 。 
命令 如 下 : 





hive> select count (* ) from bigdata user where behavior type= "1' and visit date« '2014- 12 
—13' and visit date» '2014- 12- 10'; 
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26329 


Time taken: 3.058 seconds, Fetched: 1 row(s) 








(2) 以 月 的 第 天 为 统计 单位 ,依次 显示 第 n 天 网 站 卖 出 去 的 商品 的 个 数 。 
命令 如 下 : 





hive» select count (distinct uid), day(visit date) frombigdata user where behavior type= '4 


' group by day (visit date); 





执行 结果 如 下 : 








38 


Time taken: 2.378 seconds, Fetched: 30 row(s) 


30 
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2 关键 字 赋予 定 值 为 条 件 , 对 其 他 数据 进行 分 析 


取 给 定时 间 和 给 定 地 点 , 求 当 天 发 出 到 该 地 点 的 货物 的 数量 。 
命令 如 下 : 





hive» select count(* ) frombigdata user where province- "江西 " and visit date- '2014- 12-12 


and behavior type- '4'; 





执行 结果 如 下 : 








OK 
7 
Time taken: 3.421 seconds, Fetched: 1 row(s) 








12.5.4 根据 用 户 行为 分 析 


这 里 只 给 出 查询 语句 ,不 再 给 出 执行 结果 。 
1 查询 一 件 商品 在 某 天 的 购买 比例 或 浏览 比例 





hive> select count(* ) frombigdata user where visit date='2014- 12- 1l'and behavior type= 
"uns // 查 询 有 多 少 用 户 在 2014-12-11 购买 了 商品 











hive> select count(* ) from bigdata user where visit date- '2014- 12-11'; 


// 查 询 有 多 少 用 户 在 2014- 12- 11 点 击 了 该 店 








根据 上 面 语句 得 到 购买 数量 和 点 击 数量 ,两 个 数 相 除 即 可 得 出 当天 该 商品 的 购买 率 。 
2. 查询 某 个 用 户 在 某 一 天 点 击 网 站 占 该 天 所 有 点 击 行为 的 比例 (点 击 行为 包括 浏览 、 


加 入 购物 车 收藏 .购买 ) 





hive» select count(* ) from bigdata user where uid- 10001082 and visit date- 


'2014-12-12'; // 查 询 用 户 10001082 7E 2014- 12- 12 点击 网 站 的 次 数 











hive» select count(* ) from bigdata user where visit date- '2014- 12- 12'; 


// 查 询 所 有 用 户 在 这 一 天 点 击 该 网 站 的 次 数 








上 面 两 条 语句 的 结果 相 除 ,就 得 到 了 要 求 的 比例 。 
3. 给 定购 买 商品 的 数量 范围 ,查询 某 一 天 在 该 网 站 的 购买 该 数量 商品 的 用 户 id 








hive> select uid from bigdata user where behavior type- '4' and visit date- 
"2014- 12- 12' group by uid having count (behavior type- '4')»5; // 查 询 某 一 天 在 该 网 站 购 
买 商品 超过 5 次 的 用 户 ia 
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12.5.5 ”用户 实时 查询 分 析 
查询 某 个 地 区 的 用 户 当天 浏览 网 站 的 次 数 ,语句 如 下 : 











hive> create table scan (province STRING, scan INT) COMMENT 'This is the search of bigdataday 
' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; // 创 建新 的 数据 
表 进 行 存储 

hive> insert overwrite table scan select province,count(behavior type) from bigdata user 
where behavior type- '1' group by province; // 导 入 数据 
hive»select * from scan; // 显 示 结 果 

执行 结果 如 下 

上 海 市 ”8364 

云南 8454 

内 蒙古 ”8172 

北京 市 ”8258 

台湾 8382 

吉 8272 

四 川 8359 

天 津 市 ”8478 

宁夏 8205 

安徽 8205 

山东 8236 

山西 8503 

广东 8228 

广西 8358 

新 疆 8316 

江苏 8226 

江西 8403 

河北 8363 

河南 8382 

浙江 8310 

海南 8391 

湖北 8183 

湖南 8368 

澳门 8264 

甘肃 8415 

福建 8270 

西藏 8347 

贵州 8505 

aF 8292 

重庆 市 ”8506 

陕西 8379 
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青海 8427 
香港 8386 
黑龙 江 8309 





Time taken: 0.248 seconds, Fetched: 34 row(s) 








12.6 Hive. MySQL. HBase 数据 互 导 

本 节 介绍 Hive 预 操作 ,使 用 Sqoop 将 数据 从 Hive 导入 MySQL. AE Sqoop 将 数据 从 
MySQL 导入 HBase、 使 用 HBase Java API 把 数据 从 本 地 导入 到 HBase 中 。 
12.6.1 Hive 预 操作 

1 创建 临时 表 user_action 

命令 如 下 : 





hive> create table dblab.user action (id STRING, uid STRING, item id STRING, behavior type 
STRING, item category STRING, visit date DATE, province STRING) COMMENT 'Welcome to XMU 
dblab! ' ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt' STORED AS TEXTFILE; 











这 个 命令 执行 完 以 后 , Hive 会 自动 在 HDFS 文件 系统 中 创建 对 应 的 数据 文件 /user/ 
hive/warehouse/dblab. db/user action, 

现在 可 以 新 建 一 个 终端 ,执行 命令 查看 一 下 ,确认 这 个 数据 文件 在 HDFS 中 确实 已 经 
被 创建 ,在 新 建 的 终端 中 执行 下 面 命令 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs- 1s /user/hive/warehouse/dblab.db/user action 





这 条 命令 执行 以 后 ,可 以 看 到 如 下 结果 : 





— rwxr- xr- x 1 hadoop supergroup 15590786 2016- 11- 27 21:57 /user/hive/ 
warehouse/dblab.db/user action/000000 0 











上 述 结果 可 以 说 明 , 这 个 数据 文件 在 HDFS 中 确实 已 经 被 创建 。 注 意 ,这 个 HDFS 中 
的 数据 文件 ,在 后 面 的 “使 用 HBase Java API 把 数据 从 本 地 导入 到 HBase 中 ”部 分 会 使 
用 到 。 


2. 将 bigdata user 表 中 的 数据 插入 到 user. action 


在 “Hive 数据 分 析 ” 中 ,已 经 在 Hive 中 的 dblab 数据 库 中 创建 了 一 个 外 部 表 bigdata_ 
user。 下 面 把 dblab. bigdata user 数据 插入 到 dblab. user action 表 中 ,命令 如 下 : 
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hive> INSERT OVERWRITE TABLE dblab.user action select * from dblab.bigdata user; 





然后 执行 下 面 命 令 查询 上 面 的 插入 命令 是 否 成 功 执行 : 





hive> select * from user action limit 10; 











执行 结果 如 图 12-4 所 示 。 





图 12-4 select 语句 执行 结果 


12.6.2 使 用 Sqoop 将 数据 从 Hive 导入 MySQL 
1. 将 前 面 生成 的 临时 表 数 据 从 Hive 导 入 到 MySQL 中 


D 登录 MySQL 
在 Linux 系统 中 新 建 一 个 终端 ,执行 下 面 命令 : 





$mysql -u root -p 











为 了 简化 操作 ,本 书 直接 使 用 root 用 户 登录 MySQL 数据 库 , 但 是 ,在 实际 应 用 中 , 建 
议 在 MySQL 中 再 另外 创建 一 个 用 户 。 
执行 上 面 命令 以 后 .就 进入 mysql 二 命令 提示 符 状态 。 


2) 创建 数据 库 





mysql» show databases; # 显 示 所 有 数据 库 
mysql» create database dblab; # 创 建 dblab 数据 库 
mysql> use dblab; # 使 用 数据 库 





注意 : 使 用 下 面 命令 查看 数据 库 的 编码 : 





mysql» show variables like "char$"; 











会 显示 类 似 图 12-5 所 示 的 结果 。 
请 确认 当前 编码 格式 为 utf8 ,否则 无 法 导入 中 文 。 上 面 的 查询 结果 中 ,character_set_ 


262) 大 数据 基础 编程 、 实 验 和 案例 教程 





| Variable_name | Value | 
+-------------------------- +---------------------------- 十 
| character set client | utf8 l 
| character_set_connection | utf8 l 
| character set database | latini | 
| character set filesystem | binary | 
| character set, results | utf8 | 
| character set server | latini | 
| character_set_system | utfs | 
| character_sets_dir | /usr/share/mysql/charsets/ | 
+-------------------------- +---------------------------- * 


8 rows in set (0.00 sec) 
图 12-5 初始 的 数据 库 字 符 集 编码 格式 
database 的 编码 格式 是 latinl ,不 是 utf8 ,需要 修改 。 如 果 当 前 编码 不 是 utf8 ,请 参考 本 书 附 


录 B, 把 编码 格式 修改 为 utf8。 修 改 了 编码 格式 后 ,再 次 执行 show variables like "char?6" 
命令 会 得 到 如 图 12-6 所 示 的 结果 。 


+-------------------------- +---------------------------- + 
| Variable_name | Value | 
+-------------------------- +---------------------------- + 
character_set_client | utf8 
character_set_connection | utf8 
character_set_database | utf8 


| 
| 
| 
| character_set_filesystem | binary 
| 
| 
| 


| 
l 
| 
| 
| 
utf8 l 
| 
l 
+ 


character_set_results | utf8 

character_set_server | 

character_set_system | utf8 
| character_sets_dir | /usr/share/mysql/charsets/ 
a 





8 rows in set (0.00 sec) 


图 12-6 ”修改 后 的 数据 库 字 符 集 编码 格式 


从 上 面 修改 后 的 结果 可 以 看 出 ,此 时 的 character set database 的 编码 格式 是 utf8 。 


3) 创建 表 
下 面 在 MySQL 的 数据 库 dblab 中 创建 一 个 新 表 user_action ,并 设置 其 编码 为 utf8 





mysql» CREATE TABLE 'dblab'."user action' (`id` varchar(50), uid" varchar (50), item id^ 
varchar(50), behavior type? varchar(10), item category? varchar (50), ^visit date" DATE, ` 
province' varchar (20)) ENGINE- InnoDB DEFAULT CHARSET- utf8; 





提示 : 语句 中 的 引号 是 反 引号 (在 键盘 左上 角 Esc 键 下 方 ) ,不 是 单 引号 ”。 
创建 成 功 后 ,输入 下 面 命令 退出 MySQL: 





mysql> exit 











4) 导入 数据 
注意 : 刚才 已 经 退出 MySQL. IBS] T. shell 命令 提示 符 状态 。 下 面 可 以 执行 数据 导入 


操作 : 
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$cd /usr/local/sqoop 
$./bin/sqoop export - - connect jdbc:mysql://localhost:3306/dblab —- username 
root -- password hadoop -- table user action -- export -dir '/user/hive/ 
warehouse/dblab.db/user action' -- fields- terminated- by '\t'; # 导 入 命令 








上 面 命令 的 具体 含义 如 表 12-5 Bron 
表 12-5 sqoop export 命令 的 含义 


























*$ $4 & x 
. / bin/sqoop export 数据 从 Hive 复制 到 MySQL 中 
一 connect jdbc:mysql://localhost:3306/dblab 数据 库 的 连接 地 址 
--username root MySQL 数据 库 的 登录 用 户 名 
一 password hadoop MySQL 数据 库 的 登录 密码 
--table user action MySQL 中 的 表 , 即 将 被 导入 的 表 名 称 
—export-dir '/user/hive/warehouse/dblab. db/user action ' | Hive 中 被 导出 的 文件 
—fields-terminated-by Nt Hive 中 被 导出 的 文件 字段 的 分 隔 符 





上 面 命令 执行 以 后 ,如 果 输 出 以 下 信息 , 则 表示 导入 成 功 : 








File System Counters 
FILE: 
FILE: 
FILE: 
FILE: 
FILE: 
HDFS: 
HDFS: 
HDFS: 
HDFS: 
HDFS: 


Number of bytes read- 72216458 
Number of bytes written- 73973600 
Number of read operations- 0 
Number of large read operations- 0 
Number of write operations- 0 
Number of bytes read- 38989562 
Number of bytes written- 0 

Number of read operations- 78 
Number of large read operations- 0 
Number of write operations- 0 


Map- Reduce Framework 
Mapinput records- 300000 
Map output records- 300000 
Input split bytes- 696 


16/11/28 09:18:12 INFO mapreduce.Job: Job job 10cal1006738657 0001 completed successfully 
16/11/28 09:18:12 INFO mapreduce.Job: Counters: 20 
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Spilled Records=0 
Failed Shuffles=0 
Merged Map outputs=0 
GC time elapsed (ms)-145 
Total committed heap usage (bytes)- 511180800 
File Input Format Counters 
Bytes Read- 0 
File Output Format Counters 
Bytes Written- 0 
16/11/28 09:18:12 INFO mapreduce.ExportJobBase: Transferred 37.1833 MB in 29.2772 seconds 
(1.27 MB/sec) 
16/11/28 09:18:12 INFO mapreduce.ExportJobBase: Exported 300000 records. 











2 查看 MySQL. 中 user. action 表 数 据 
下 面 需要 再 次 启动 MySQL ,进入 mysql 二 命令 提示 符 状态 : 





$mysql-u root-p 











系统 会 提示 输入 MySQL 的 root 用 户 的 密码 ,本 书 中 安装 的 MySQL. 数据 库 的 root JH 
户 的 密码 是 hadoop。 
然后 执行 下 面 命令 查询 user action 表 中 的 数据 : 





mysql> use dblab; 


mysql> select * from user action limit 10; 








会 得 到 类 似 下 面 的 查询 结果 : 

4R-------- 4R-------- 4R-------- | 4-------- 4------- 4R----2-- 十 
lid | uid | item id | behavior type | item category | visit date | province| 
+-------- +-------- +-------- +-------- + 一 一 一 一 一 一 一 一 4------- +------- + 


| 225653 | 102865660 | 164310319 | 
| 225654 | 102865660 | 72511722 | 
| 225655 | 102865660 | 334372932 | 
| 225656 | 102865660 | 323237439 | 


i 1 5027 | 2014- 12-08 | 香港 1 

1 1 1121 1 2014-12-13 | 天 津 市 | 

1 | 5027 | 2014-11-30 | 江苏 | 

i 1 5027 | 2014- 12- 02 | 广东 l 
| 225657 | 102865660 | 323237439 | 1 | 5027 | 2014-12-07 | 山西 1 
| 225658 | 102865660 | 34102362 | 1 | 1863 1 2014-12-13 | 内 蒙古 | 
| 225659 | 102865660 | 373499226 | 1 2014- 11- 26 | 湖北 1 
| 225660 | 102865660 | 271583890 | 1 1 5027 | 2014- 12- 06 | 山西 1 
| 225661 | 102865660 | 384764083 | 1 | 5399 12014-11-26 | RI] | 
| 225662 | 102865660 | 139671483 | 1 | 5027 | 2014-12-03 | 广东 1 


m 
I 
Ù 
e 
e 


10rows in set (0.00 sec) 
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至 此 ,从 Hive 导入 数据 到 MySQL 中 的 操作 ,顺利 完成 。 
12.6.3 使 用 Sqoop 将 数据 从 MySQL 导入 HBase 
1 启动 Hadoop 集群 .MYSQL 服务 .HBase 服务 


之 前 已 经 启动 了 Hadoop 集群 和 MySQL 服务 ,这 里 请 确认 已 经 按照 前 面 操作 启动 成 
功 。 现 在 需要 再 启动 HBase 服务 。 本 书 中 ,HBase 的 安装 目录 是 /usr/local/hbase, 而 且 本 
书 中 ,HBase 被 配置 为 使 用 HDFS 来 存储 数据 。 

在 Linux 系统 中 新 建 一 个 终端 ,执行 下 面 命 令 : 





$cd /usr/local/hbase 
$./bin/start-hbase.sh 











2. 启动 HBase Shell 


执行 如 下 命令 启动 hBase shell; 





$cd /usr/local/hbase 
$./bin/hbase shell 











启动 成 功 后 ,就 进入 了 hbase (i JR TEARS. 
3. 创建 表 user. action 
命令 如 下 : 





hbase> create 'user action', ( NAME-» 'fl', VERSIONS-» 5] 











上 面 命令 执行 后 ,会 在 HBase 中 创建 一 个 user. action 表 , 这 个 表 中 有 一 个 列 族 (0108 
列 族 名 称 取 为 其 他 名 称 也 可 以 ,例如 列 族 名 称 为 userinfo) ,历史 版 本 保留 数量 为 5。 


4 导入 数据 
下 面 新 建 一 个 终端 ,执行 下 面 命令 导入 数据 : 





$cd /usr/local/sqoop 
$./bin/sqoop import - - connect jdbc:mysql://localhost:3306/dblab -- username 
root -- password hadoop - - table user action -—hbase- table user action - -column 


— family fl - -hbase- row- key id - - hbase- create- table- m 1 











注意 : IP 部 分 改 为 本 机 IP 地 址 或 localhost。 同 时 ,HBase 只 支持 十 六 进 制 存 储 中 文 。 
上 面 这 条 命令 的 具体 含义 如 表 12-6 所 示 。 
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表 12-6 sqoop import 命令 的 具体 含义 



































命 e 含 X 
. /bin/sqoop import 执行 导入 操作 
--connect jdbc:mysql://localhost:3306/dblab 数据 库 连接 地 址 
—username root 登录 数据 库 的 用 户 名 
一 password hadoop 登录 数据 库 的 密码 
—table user action 所 要 访问 的 数据 库 表 
—hbase-table user action HBase 中 表 的 名 称 
—column-family f1 列 族 名 称 
--hbase-row-key id HBase 行 键 
--hbase-create-table 是 否 在 不 存在 情况 下 创建 表 
-m 1 启动 Map 的 数量 





执行 上 面 的 sqoop import 命令 后 ,会 得 到 类 似 下 面 的 结果 (省 略 了 很 多 非 重要 的 屏幕 
EO: 








16/11/28 10:03:40 INFO mapreduce.Job: Counters: 20 
File System Counters 
FILE: Number of bytes read- 39428226 
FILE: Number of bytes written- 40095167 
FILE: Number of read operations- 0 
FILE: Number of large read operations- 0 
FILE: Number of write operations- 0 
HDFS: Number of bytes read- 0 
HDFS: Number of bytes written- 0 
HDFS: Number of read operations- 0 
HDFS: Number of large read operations- 0 
HDFS: Number of write operations- 0 
Map- Reduce Framework 
Map input records- 300000 
Map output records- 300000 
Input split bytes- 87 
Spilled Records- 0 
Failed Shuffles- 0 
Merged Map outputs- 0 
GC time elapsed (ms)- 1018 
Total committed heap usage (bytes)- 127795200 
File Input Format Counters 
Bytes Read- 0 
File Output Format Counters 
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Bytes Written- 0 
16/11/28 10:03:40 INFO mapreduce.ImportJobBase: Transferred 0 bytes in 69.7527 seconds (0 
bytes/sec) 
16/11/28 10:03:40 INFO mapreduce.ImportJobBase: Retrieved 300000 records. 











5. 查看 HBase 中 user. action 表 数 据 


现在 再 次 切换 到 HBase Shell 运行 的 那个 终端 窗口 ,在 hbase 二 命令 提示 符 下 ,执行 下 
面 命令 查询 刚才 导入 的 数据 : 











hbase» scan 'user action', (LIMIT- » 10) # 只 查询 前 面 10 行 

因为 有 30 万 条 记录 ,所 以 ,用 LIMIT 只 查询 前 10 行 的 记录 ,会 得 到 类 似 下 面 的 结果 : 
column-fl:behavior type, timestamp- 1480298573684, value=1 

1 column-fl:item category, timestamp= 1480298573684, value= 4076 

1 column-fl:item id, timestamp= 1480298573684, value= 285259775 

z column-fl:province, timestamp- 1480298573684, value= \xE5\xB9\xBF\xEA\xB8\x9C 
1 column-fl:uid, timestamp- 1480298573684, value= 10001082 

1 column-fl:visit date, timestamp- 1480298573684, value- 2014- 12- 08 

10 column-fl:behavior type, timestamp- 1480298573684, value=1 

10 column-fl:item category, timestamp- 1480298573684, value- 10894 

10 column-fl:item id, timestamp- 1480298573684, value- 323339743 

10 column-fl:province, timestamp- 1480298573684, value= \xE5\xB1\xB1\xE4\xB8\x9C 
10 column-fl:uid, timestamp- 1480298573684, value- 10001082 

10 column-fl:visit date, timestamp- 1480298573684, value-2014- 12-12 

100 column-fl:behavior type, timestamp- 1480298573684, value=1 

100 column-fl:item category, timestamp- 1480298573684, value- 10576 

100 column-fl:item id, timestamp- 1480298573684, value- 275221686 

100 column- fl:province, timestamp- 1480298573684, value= \xE6\xB9\x96\xE5\x8C\x97 
100 column-fl:uid, timestamp- 1480298573684, value- 10001082 

100 column-fl:visit date, timestamp- 1480298573684, value= 2014- 12- 02 

1000 column-fl:behavior type, timestamp- 1480298573684, value=1 

1000 column-fl:item category, timestamp- 1480298573684, value- 3381 

1000 column-fl:item id, timestamp- 1480298573684, value= 168463559 

1000 column-fl:province, timestamp- 1480298573684, value= \xE5\xB1\xB1\xE8\xA5\xBF 
1000 column-fl:uid, timestamp- 1480298573684, value- 100068031 

1000 column-fl:visit date, timestamp- 1480298573684, value- 2014- 12- 02 

10000 column-fl:behavior type, timestamp- 1480298575888, value- 1 
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10000 column-fl:item category, timestamp- 1480298575888, value- 12488 

10000 column-fl:item id, timestamp- 1480298575888, value- 45571867 

10000 column-fl:province, timestamp- 1480298575888, value= \xE6\xB9\x96\xE5\x8C\x97 

10000 column-fl:uid, timestamp- 1480298575888, value- 100198255 

10000 column-fl:visit date, timestamp- 1480298575888, value- 2014- 12- 05 

100000 column-fl:behavior type, timestamp- 1480298594850, value-1 

100000 column-fl:item category, timestamp- 1480298594850, value- 6580 

100000 column-fl:item id, timestamp- 1480298594850, value- 78973192 

100000 column-fl:province, timestamp- 1480298594850, value= \xE5\xB1\xB1\xE4\xB8\x9C 

100000 column-fl:uid, timestamp- 1480298594850, value= 101480065 

100000 column-fl:visit date, timestamp- 1480298594850, value- 2014- 11- 29 

100001 column-fl:behavior type, timestamp- 1480298594850, value-1 

100001 column-fl:item category, timestamp- 1480298594850, value- 3472 

100001 column-fl:item id, timestamp- 1480298594850, value- 34929314 

100001 column- fl:province, timestamp- 1480298594850, value= \xE5\x8C\x97\xE4\xBA\xAC\ 
xE5\xB8\x82 

100001 column-fl:uid, timestamp- 1480298594850, value- 101480065 

100001 column-fl:visit date, timestamp- 1480298594850, value- 2014-12-15 

100002 column-fl:behavior type, timestamp- 1480298594850, value-1 

100002 column-fl:item category, timestamp- 1480298594850, value= 10392 

100002 column-fl:item id, timestamp- 1480298594850, value- 401104894 

100002 column- fl:province, timestamp- 1480298594850, value= \xE6\xB1\x9F\xE8\xA5\xBF 

100002 column-fl:uid, timestamp- 1480298594850, value= 101480065 

100002 column-fl:visit date, timestamp- 1480298594850, value- 2014-11-29 

100003 column-fl:behavior type, timestamp- 1480298594850, value-1 

100003 column-fl:item category, timestamp- 1480298594850, value- 5894 

100003 column-fl:item id, timestamp- 1480298594850, value- 217913901 

100003 column- fl:province, timestamp- 1480298594850, value= \xE9\xBB\x91\xE9\xBE\x99\ 
xE6\xB1\x9F 

100003 column-fl:uid, timestamp- 1480298594850, value= 101480065 

100003 column-fl:visit date, timestamp- 1480298594850, value- 2014- 12- 04 

100004 column-fl:behavior type, timestamp- 1480298594850, value-1 

100004 column-fl:item category, timestamp- 1480298594850, value- 12189 

100004 column- fl:item id, timestamp- 1480298594850, value= 295053167 

100004 column-fl:province, timestamp- 1480298594850, value= \xE6\xB5\xB7\xE5\x8D\x97 

100004 column-fl:uid, timestamp- 1480298594850, value= 101480065 

100004 column-fl:visit date, timestamp- 1480298594850, value- 2014-11-26 


10 row(s) in 2.1550 seconds 











注意 : 用 limit10 是 返回 HBase 表 中 的 前 面 10 行 数据 ,但 是 ,上 面 的 结果 ,从 “ 行 数 ”来 
看 ,似乎 不 是 10 行 ,而 是 远 远 多 于 10 行 。 这 是 因为 ,HBase 在 显示 数据 的 时 候 , 和 关系 型 数 
据 库 MySQL 是 不 同 的 ,每 行 显示 的 不 是 一 行 记录 ,而 是 一 个 “单元 格 ”。 





第 12 章 ”大 数据 课程 综合 实验 案例 


12.6.4 使 用 HBase Java API 把 数据 从 本 地 导入 到 HBase 中 
1 启动 Hadoop 集群 .HBase 服 务 


首先 确保 启动 了 Hadoop 集群 和 HBase 服务 。 如 果 还 没有 启动 ,在 Linux 系统 中 打开 
一 个 终端 首先 ,按照 下 面 命令 启动 Hadoop: 





$cd /usr/local/hadoop 
$./sbin/start-all.sh 





然后 按照 下 面 命令 启动 HBase: 





$cd /usr/local/hbase 
$./bin/start- hbase.sh 











2 数据 准备 


实际 上 ,也 可 以 编写 Java 程序 ,直接 从 HDFS 中 读 取 数据 加 载 到 HBase。 但 是 ,这 里 展 
示 的 是 如 何 用 Java 程序 把 本 地 数据 导入 到 HBase 中 。 只 要 对 程序 做 简单 修改 ,就 可 以 实 
现 从 HDFS 中 读 取 数据 加 载 到 HBase。 

首先 将 之 前 的 user_action 数据 从 HDFS 复制 到 Linux 系统 的 本 地 文件 系统 中 ,命令 
如 下 : 





$cd /usr/local/bigdatacase/dataset 
$/usr/local/hadoop/bin/hdfs dfs -get /user/hive/warehouse/dblab.db/user_ 
action . # 将 HDFS 上 的 user action 数据 复制 到 本 地 当前 目录 ,"." 表 示 当 前 目录 
$cat ./user action/* | head -10 "fili 10 行 数据 
$cat ./user action/00000* > user action.output 
# 将 00000 * 文件 复制 一 份 重 命名 为 user action.output, * 表示 通配符 


$head user action.output # 查 看 user action.output 前 10 fT 











3. 编写 数据 导入 程序 
这 里 采用 Eclipse 编写 Java 程序 实现 HBase 数据 导入 功能 ,具体 代码 如 下 : 





import java.io.BufferedReader; 
import java.io.FileInputStream; 
import java.io.IOException; 
import java.io.InputStreamReader; 
import java.util.List; 
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// 
Zl 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.KeyValue; 

import org.apache.hadoop.hbase.client.Get; 

import org.apache.hadoop.hbase.client.HBaseAdmin; 
import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.client.Result; 
import org.apache.hadoop.hbase.client.ResultScanner; 
import org.apache.hadoop.hbase.client.Scan; 

import org.apache.hadoop.hbase.util.Bytes; 

public class HBaselImportTest extends Thread { 


public Configuration config; 
public HTable table; 
public HBaseAdmin admin; 
public HBaseImportTest() ( 
config-HBaseConfiguration.create(); 
config.set ("hbase.master", "master:60000"); 
config.set ("hbase.zookeeper.quorum", "master"); 
try ( 
table-new HTable (config, Bytes.toBytes("user action")); 
admin- new HBaseAdmin (config); 
) catch (IOException e) { 


e.printStackTrace(); 


} 
public static void main(String[] args) throws Exception { 
if(args.length-- 0) ( 
// 第 一 个 参数 是 该 jar 所 使 用 的 类 ,第 二 个 参数 是 数据 集 所 存放 的 路 径 
throw new Exception ("You must set input path!"); 
k 
String fileName-args[args.length-1]; // 输 入 的 文件 路 径 是 最 后 一 个 参数 
HBaseImportTest test- new HBaseImportTest () ; 
test.importLocalFileToHBase (fileName); 
) 
public void importLocalFileToHBase (String fileName) { 
long st-System.currentTimeMillis (); 
BufferedReader br- null; 
try { 
br=new BufferedReader (new InputStreamReader (new FileInputStream( 
fileName))); 
String line- null; 
int count-0; 
while ((line-br.readLine()) !—-null) f 
count; 


put (line); 
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if (count $ 10000--0) 
System.out.println (count); 
} 
} catch (IOException e) { 
e.printStackTrace () ; 
) finally ( 
if (br !'-null) ( 
try { 
br.close(); 
) catch (IOException e) { 
e.printStackTrace(); 


H 
try { 
table.flushCommits(); 
table.close(); //must close the client 
) catch (IOException e) ( 
e.printStackTrace (); 


i 
long en2- System.currentTimeMillis () ; 
System.out.println("Total Time: "+ (en2- st)+" ms"); 
} 
@ SuppressWarnings ("deprecation") 
public void put (String line) throws IOException { 
String[] arr=line.split("\t", -1); 
String[] column- ("id","uid","item id","behavior type","item 
category", "date", province"); 
if (arr.length-- 7) ( 
Put put-new Put (Bytes.toBytes (arr[0]));//rowkey 
for (int i-l;i«arr.length;i**)( 
put.add(Bytes.toBytes ("fl"), Bytes.toBytes (column[i]),Bytes. 
toBytes (arr[i])); 
H 
table.put (put); //put to server 


} 
public void get (String rowkey, String columnFamily, String column, 
int versions) throws IOException { 
long st-System.currentTimeMillis(); 
Get get- new Get (Bytes .toBytes (rowkey)) ; 
get .addColumn (Bytes.toBytes (columnFamily), Bytes.toBytes (column)); 
Scan scanner- new Scan (get); 
Scanner.setMaxVersions (versions); 


ResultScanner rsScanner-table.getScanner (scanner); 
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for (Result result : rsScanner) ( 
final List«KeyValue» list- result.list(); 
for (final KeyValue kv : list) ( 
System.out.println (Bytes.toStringBinary (kv.getValue () ) - "Vt" 
*kv.getTimestamp()); //mid+ time 


) 

rsScanner.close(); 

long en2- System.currentTimeMillis () ; 
System.out.println("Total Time: "+ (en2- st)+" ms"); 











上 述 代码 也 可 以 直接 到 本 书 官网 “下 载 专 区 ”下载 ,位 于 * 代 码 ” 目 录 的 “第 12 章 ? 子 目录 
下 ,文件 名 是 ImportHBase. java. 

参照 第 5 章 的 内 容 , 在 Eclipse 中 编写 上 述 代码 ,并 打包 成 可 执行 jar 包 , 命 名 为 
ImportHBase. jar; 然 后 在 /usr/local/bigdatacase/ 目 录 下 面 新 建 一 个 hbase 子 目录 ,用 来 存 
放 ImportHBase. jar。 


4 数据 导入 


现在 开始 执行 数据 导入 操作 。 使 用 上 面 编 写 的 Java 程序 ImportHBase. jar, 将 数据 从 
本 地 导入 HBase 中 。 

注意 : 在 导入 之 前 , 先 清空 user action 表 。 在 之 前 已 经 打开 的 HBase Shell 窗口 中 (也 
就 是 在 hbase 二 命令 提示 符 下 ) 执 行 下 面 操作 : 





hbase> truncate 'user action' 





下 面 就 可 以 运行 hadoop jar 命令 ,来 运行 刚才 的 Java 程序 : 





$/usr/local/hadoop/bin/hadoop jar /usr/local/bigdatacase/hbase/ImportHBase. jar 
HBaseImportTest /usr/local/bigdatacase/dataset/user action.output 











上 面 这 条 命令 的 含义 如 表 12-7 所 示 。 
表 12-7  hadoop jar 命令 的 含义 




















命 e? 含 X 
/usr/local/hadoop/bin/hadoop jar hadoop jar 包 执 行 方式 
/usr/local/bigdatacase/hbase/ImportHBase. jar jar 包 的 路 径 
HBaseImportTest 主 函 数 入 口 
/ usr/local/ bigdatacase/dataset/user action. output Pen 方法 接收 的 参数 args, 用 来 指定 输入 文件 的 
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这 个 命令 大 概 会 执行 3min 左右 ,执行 过 程 中 ,屏幕 上 会 打印 出 执行 进度 ,每 执行 1 万 
条 ,对 打印 出 一 行 信息 ,所 以 ,整个 执行 过 程 屏 幕 上 显示 如 下 信息 : 





10000 
20000 
30000 
40000 
50000 
60000 
70000 
80000 
90000 
100000 
110000 
120000 
130000 
140000 
150000 
160000 
170000 
180000 
190000 
200000 
210000 
220000 
230000 
240000 
250000 
260000 
270000 
280000 
290000 
300000 
Total Time: 259001 ms 











5. 查看 HBase 中 user. action 表 数 据 


下 面 再 次 切换 到 HBase Shell 窗口 ,执行 下 面 命令 查询 数据 








habse> scan 'user action',(LIMIT-» 10} # 只 查询 前 面 10 行 








可 以 得 到 类 似 下 面 的 查询 结果 : 
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100 
100 
100 
100 
100 
100 
1000 
1000 
1000 
1000 
1000 
1000 
10000 
10000 
10000 
10000 
10000 
10000 
100000 
100000 
100000 
100000 
100000 
100000 
100001 
100001 





column- fl: 
column- fl: 
column- fl: 
column- f1l: 
column- fl: 
column- fl: 
column- f1: 
column- f1: 
column- f1: 
column- f1: 
column- f1: 
column- f1: 
column- f1: 
column- f1: 
column- f1: 
column- fl 
column- fl 
column- fl 
column- fl 
column- f1: 
column-f1: 
column- fl 
column- fl 
column- fl 
column- fl 
column- f1: 
column- f1: 
column- fl: 
column- fl: 
column- fl: 
column- fl: 
column-f1: 
column- f1: 
column- fl: 
column- fl: 
column- fl: 
column- fl: 


column- fl: 


behavior type, timestamp- 1480298573684, value-1 

item category, timestamp- 1480298573684, value- 4076 

item id, timestamp- 1480298573684, value- 285259T75 

province, timestamp- 1480298573684, value= \xE5\xB9\xBF\xE4\xB8\x9C 
uid, timestamp- 1480298573684, value- 10001082 

Visit date, timestamp- 1480298573684, value- 2014- 12- 08 

behavior type, timestamp- 1480298573684, value=1 

item category, timestamp- 1480298573684, value- 10894 

item id, timestamp- 1480298573684, value- 323339743 

province, timestamp- 1480298573684, value= \xE5\xB1\xB1\xE4\xB8\x9C 
uid, timestamp- 1480298573684, value- 10001082 

visit date, timestamp- 1480298573684, value- 2014- 12-12 

behavior type, timestamp- 1480298573684, value-1 

item category, timestamp- 1480298573684, value- 10576 

item id, timestamp- 1480298573684, value- 275221686 


:province, timestamp- 1480298573684, value= \xE6\xB9\x96\xE5\x8C\x97 
:uid, timestamp- 1480298573684, value- 10001082 

:visit date, timestamp- 1480298573684, value- 2014- 12- 02 

:behavior type, timestamp- 1480298573684, value=1 


item category, timestamp- 1480298573684, value- 3381 
item id, timestamp- 1480298573684, value- 168463559 


:province, timestamp- 1480298573684, value= \xE5\xB1\xB1\xE8\xA5\xBF 
:uid, timestamp- 1480298573684, value- 100068031 

:visit date, timestamp- 1480298573684, value= 2014- 12- 02 

:behavior type, timestamp- 1480298575888, value=1 


item category, timestamp- 1480298575888, value- 12488 

item id, timestamp- 1480298575888, value- 45571867 

province, timestamp- 1480298575888, value= \xE6\xB9\x96\xE5\x8C\x97 
uid, timestamp- 1480298575888, value- 100198255 

visit date, timestamp- 1480298575888, value- 2014- 12- 05 

behavior type, timestamp- 1480298594850, value-1 

item category, timestamp- 1480298594850, value- 6580 

item id, timestamp- 1480298594850, value- 78973192 

province, timestamp- 1480298594850, value= \xE5\xB1\xB1\xE4\xB8\x9C 
uid, timestamp- 1480298594850, value- 101480065 

visit date, timestamp- 1480298594850, value- 2014- 11- 29 

behavior type, timestamp- 1480298594850, value-1 

item category, timestamp- 1480298594850, value- 3472 
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100001 column-fl:item id, timestamp- 1480298594850, value- 34929314 

100001 column- fl:province, timestamp- 1480298594850, value= \xE5\x8C\x97\xE4\xBA\xAC\ 
xE5\xB8\x82 

100001 column= fl:uid, timestamp- 1480298594850, value= 101480065 

100001 column-fl:visit date, timestamp- 1480298594850, value- 2014- 12- 15 

100002 column-fl:behavior type, timestamp- 1480298594850, value=1 

100002 column-fl:item category, timestamp- 1480298594850, value= 10392 

100002 column-fl:item id, timestamp- 1480298594850, value= 401104894 

100002 column-fl:province, timestamp- 1480298594850, value= \xE6\xB1\x9F\xE8\xA5\xBF 

100002 column- fl:uid, timestamp- 1480298594850, value= 101480065 

100002 column-fl:visit date, timestamp- 1480298594850, value= 2014- 11- 29 

100003 column-fl:behavior type, timestamp- 1480298594850, value-1 

100003 column-fl:item category, timestamp- 1480298594850, value- 5894 

100003 column-fl:item id, timestamp- 1480298594850, value- 217913901 

100003 column- fl:province, timestamp- 1480298594850, value= \xE9\xBB\x91\xE9\xBE\x99\ 
XE6\xB1\x9F 

100003 column- fl:uid, timestamp- 1480298594850, value= 101480065 

100003 column-fl:visit date, timestamp- 1480298594850, value= 2014- 12- 04 

100004 column-fl:behavior type, timestamp- 1480298594850, value-1 

100004 column-fl:item category, timestamp- 1480298594850, value- 12189 

100004 column-fl:item id, timestamp- 1480298594850, value- 295053167 

100004 column-fl:province, timestamp- 1480298594850, value= \xE6\xB5\xB7\xE5\x8D\x97 

100004 column-fl:uid, timestamp- 1480298594850, value= 101480065 

100004 column-fl:visit date, timestamp- 1480298594850, value= 2014- 11- 26 

10 row(s) in 0.6380 seconds 











至 此 ,步骤 (3) 的 实验 内 容 顺 利 结束 。 


12.7 利用 R 进行 数据 可 视 化 分 析 


本 节 介绍 安装 RR、 安装 依赖 库 和 可 视 化 分 析 等 。 
12.7.1 安装 R 


Ubuntu 自 带 的 APT 包 管 理 器 中 的 R 安装 包 总 是 落后 于 标准 版 ,因此 ,需要 添加 新 的 
镜像 源 ,把 APT 包 管 理 中 的 R 安装 包 更 新 到 最 新 版 。 

登录 Linux 系统 ,打开 一 个 终端 ,并 注意 保持 网 络 连通 ,可 以 访问 互联 网 ,因为 安装 过 程 
要 下 载 各 种 安装 文件 。 

首先 利用 vim 编辑 器 打开 /etc/apt/sources. list 文件 ,命令 如 下 : 





$sudo vim /etc/apt/sources.list 











在 文件 的 最 后 一 行 添加 厦门 大 学 的 镜像 源 : 
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deb http://mirrors.xmu.edu.cn/CRAN/bin/linux/ubuntu/ trusty/ 





保存 文件 退出 vim 编辑 器 ,然后 ,执行 如 下 命令 更 新 软件 源 列表 : 





$sudo apt- get update 





如 果 更 新 软件 源 出 现 “ 由 于 没有 公 钥 无 法 验证 签名 ”的 错误 ,请 执行 如 下 命令 : 





$sudo apt- key adv - - keyserver keyserver.ubuntu.com - - recv- keys 
51716619E084DAB9 





接 下 来 执行 如 下 命令 安装 R 语言 





$sudo apt-get install r-base 











系统 会 提示 “您 希望 继续 执行 吗 ? [y/n]”, 可 以 直接 从 键盘 输入 y, 按 Enter 键 就 可 以 
顺利 安装 结束 。 安 装 结束 后 ,可 以 执行 下 面 命令 启动 R: 





SR 





启动 后 会 显示 如 下 信息 ,并 进入 二 命令 提示 符 状态 : 





R version 3.3.2 (2016- 10- 31)- - "Sincere Pumpkin Patch" 
Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86 64-pc- linux- gnu (64-bit) 


BR 是 自由 软件 ,不 带 任何 担保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
J 'license () ' 或 'licence() ' 来 看 散布 的 详细 条 件 。 


BR 是 个 合作 成 果 , 有 许多 人 为 之 做 出 了 贡献 。 
FH 'contributors () ' 来 看 合作 者 的 详细 情况 。 
用 'citation() ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 。 


用 'demo() ' 来 看 一 些 示 范 程序 ,用 'help() ' 来 阅读 在 线 帮助 文件 ,或 
用 'help.start() ' 通 过 HIML 浏 览 器 来 看 帮助 文件 。 
H'ag ' 退 出 R 


> 











其 中 ,二 是 R 的 命令 提示 符 , 可 以 在 后 面 输入 R 语言 命令 。 
最 后 可 以 执行 下 面 命令 退出 R: 





>q() 
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12.7.2 安装 依赖 库 


为 了 完成 可 视 化 分 析 功 能 ,需要 为 R 安装 一 些 依赖 库 , 包 括 RMySQL、 ggplot2、 
devtools 和 recharts。 其 中 ,RMySQL 是 一 个 提供 了 访问 MySQL 数据 库 的 R 语言 接口 程 
JEMI R 语言 依赖 库 ,ggplot2 和 recharts 则 是 R 语言 中 提供 绘图 可 视 化 功能 的 依赖 库 。 

启动 R 进入 R 命令 提示 符 状态 ,执行 如 下 命令 安装 RMySQL: 








>install .packages ('RMySQL') 








上 面 命 令 执 行 后 ,屏幕 会 提示 “Would you like to user a personal library instead?(y/ 
n)” 等 问题 ,只 要 遇 到 提问 ,都 在 键盘 输入 y 后 按 Enter 键 即 可 。 然 后 ,屏幕 会 显示 “一 在 此 
连 线 阶段 时 请 选用 CRAN 的 镜子 一 ”, 并 弹出 一 个 白色 背景 的 竖 条 形 窗 口 ,窗口 标题 是 
HTTPS CRAN mirros, 标 题 下 面 列 出 了 很 多 国家 的 镜像 列表 ,可 以 选择 位 于 China 的 镜 
像 ,例如 ,选择 China(Beijing)[httpsj, 然 后 单 击 OK 按钮 ,就 可 以 开始 安装 。 安 装 过 程 需 要 
几 分 钟 时 间 ,当然 ,安装 过 程 所 需 时 间 ,也 和 当前 网 络 速度 有 关系 。 

由 于 不 同 用 户 的 Ubuntu 开发 环境 不 一 样 , 安 装 过 程 有 很 大 可 能 会 因为 缺少 组 件 而 导 
致 失败 ,例如 ,可 能 会 出 现 如 下 错误 信息 : 





Configuration failed because libmysqlclient was not found. Try installing: 

* deb: libmariadb- client- lgpl- dev (Debian, Ubuntu 16.04) 
libmariadbclient- dev (Ubuntu 14.04) 

* rpm: mariadb- devel | mysql- devel (Fedora, CentOS, RHEL) 

* csw: mysql56 dev (Solaris) 

* brew: mariadb- connector- c (OSX) 





ERROR: configuration failed for package 'RMySQL" 
* removing '/home/hadoop/R/x86 64- pc- linux- gnu- library/3.3/RMySQL"' 


下 载 的 程序 包 在 
'/tmp/RtmpvEArxz/downloaded packages' 里 
Warning message: 


In install.packages ("RMySQL") :安装 程序 包 'RMysQL' 时 退出 状态 的 值 不 是 0 











如 果 安 装 过 程 出 现 上 述 错误 信息 ,那么 .就 需要 输入 qO ,退出 R 命令 提示 符 状态 , 回 到 
Shell 状态 ;然后 根据 错误 信息 进行 相关 操作 。 例 如 ,如 果 采 用 Ubuntul6. 04 系统 ,那么 , 根 
据 上 面 的 英文 错误 信息 ,就 需要 在 Shell 命令 提示 符 状态 下 执行 下 面 命令 安装 libmariadb- 
client-lgpl-dev: 





$sudo apt-get install libmariadb- client- lgpl- dev 





再 次 输入 下 面 命令 进入 R 命令 提示 符 状态 : 











$R 
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启动 后 进入 二 命令 提示 符 状 态 ; 然 后 执行 如 下 命令 安装 绘图 包 ggplot2: 








> instal1.packages ('ggplot2') 








屏幕 会 显示 “一 在 此 连 线 阶段 时 请 选用 CRAN 的 镜子 一 ,并 会 弹出 一 个 白色 背景 的 坚 
条 形 窗口 ,窗口 标题 是 HTTPS CRAN mirros ,标题 下 面 列 出 了 很 多 国家 的 镜像 列表 ,可 以 
选择 位 于 China 的 镜像 ,例如 ,选择 China(Beijing)[httpsj, 然 后 单 击 OK 按钮 ,就 开始 安装 
了 。 如 果 还 出 现 缺 少 组 件 的 错误 信息 ,按照 上 面 的 处 理 办 法 就 可 以 顺利 解决 。 这 个 命令 运 
行 后 ,大 概 需 要 安装 10min, 当然, 安装 过 程 所 需 时 间 , 也 和 当前 网 络 速度 有 关系 。 

接 下 来 继续 运行 下 面 命令 安装 devtools: 





»install.packages ('devtools') 











如 果 在 上 面 安装 devtools 的 过 程 中 ,又 出 现 了 错误 信息 ,处 理 方法 很 简单 ,还 是 按照 上 
面 介绍 的 方法 ,根据 屏幕 上 给 出 的 英文 错误 信息 ,缺少 什么 软件 ,就 用 sudo apt-get install 
命令 安装 该 软件 即 可 。 例 如 ,在 Ubuntul6. 04 上 执行 devtools 安装 时 ,可 能 会 出 现 3 次 错 
V ,根据 每 次 错误 的 英文 提示 信息 ,就 需要 3 个 软件 : libssl-dev \libssh2-1-dev \libcurl4- 
openssl-dev。 安 装 命令 如 下 : 





$sudo apt-get install libssl- dev 
$sudo apt-get install libssh2- 1- dev 
$sudo apt-get install libcurl4- openssl- dev 





最 后 在 R 命令 提示 符 下 ,再 执行 如 下 命令 安装 taiyun/recharts: 











»devtools::install github('taiyun/recharts') 





12.7.3 ”可视化 分 析 


以 下 在 分 析 过 程 中 所 使 用 的 函数 方法 ,都 可 以 在 R 命令 提示 符 下 使 用 *?” 命 令 查 询 函 
数 的 相关 文档 ,例如 ,查询 sortO 〇 函数 如 何 使 用 ,可 以 使 用 如 下 命令 : 





>?sort 





这 时 就 会 进入 冒号 : ”提示 符 状态 ( 即 帮助 文档 状态 ) ,在 冒号 后 面 输入 q, 即 可 退出 帮 
助 文档 状态 ,返回 到 R 提示 符 状 态 。 


L 连接 MySQL, 并 获取 数据 
在 Linux 系统 中 新 建 男 外 一 个 终端 ,然后 执行 下 面 命令 启动 MySQL 数据 库 : 





$service mysql start 
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屏幕 上 会 弹出 窗口 提示 你 输入 密码 ,本 书 的 MySQL 数据 库 的 用 户 名 是 root, 密 码 是 


hadoop, 所 以 ,直接 输入 密码 hadoop ,就 可 以 成 功 启动 MySQL. 数据 库 。 


示 符 


下 面 需 要 查看 一 下 MySQL 数据 库 中 的 数据 ,首先 执行 如 下 命令 进入 MySQL 命令 提 








Smysql-u root-p 








系统 会 提示 输入 密码 ,可 以 输入 密码 hadoop ,这 样 就 可 以 进入 mysql 二 提示 符 状 态 。 
接 下 来 可 以 输入 一 些 SQL 语句 查询 数据 : 








mysql> use dblab; 





mysql> select * from user action limit 10; 





果 如 


上 面 语句 执行 后 ,可 以 查看 到 数据 库 dblab 中 的 user. action 表 的 前 10 行 记 录 , 查 询 结 











qs 
4-------- 4R-------- 4-------- 4-------- 4R-------- 4------- 4------- 十 
id | uid | item id | behavior type | item category | visit date | province | 
4R-------- 4R-------- 4-------- 4R-------- 4o-l-l12-- 4R------- 4------- 十 
225653 | 102865660 | 164310319 | 1 1 5027 | 2014- 12- 08 | 香港 I 
225654 | 102865660 | 72511722 |1 | 1121 | 2014- 12-13 | X tili | 
225655 | 102865660 | 334372932 | 1 1 5027 | 2014- 11- 30 | 江苏 | 
225656 | 102865660 | 323237439 | 1 | 5027 | 2014- 12- 02 | 广东 I 
225657 | 102865660 | 323237439 | 1 | 5027 | 2014- 12- 07 | 山西 I 
225658 | 102865660 | 34102362 | 1 | 1863 | 2014-12-13 | 内 蒙古 I 
225659 | 102865660 | 373499226 | 1 | 12388 | 2014- 11- 26 | 湖北 | 
225660 | 102865660 | 271583890 | 1 | 5027 | 2014- 12- 06 | 山西 | 
| 225661 | 102865660 | 384764083 | 1 | 5399 | 2014- 11- 26 | 澳门 | 
225662 | 102865660 | 139671483 | 1 | 5027 | 2014- 12- 03 | 广东 I 
R-------- 4R-------- 4R-------- 4R-------- 4R-------- 4------- LR 十 
10 rows in set (0.00 sec) 








切换 到 刚才 已 经 打开 的 R 命令 提示 符 终 端 窗口 ,使 用 如 下 命令 让 R 连接 到 MySQL 数 





据 库 ， 
> library (RMySQL) 
> conn< 一 
dbConnect (MySQL () ,dbname= 'dblab', username- ' root ',password- 'hadoop',host-"127.0.0.1", 
port- 3306) 
»user action«- dbGetQuery(conn,'select * from user action') 











2 分 析 消 费 者 对 商品 的 行为 
summary O 函数 可 以 得 到 样本 数据 类 型 和 长 度 , 如 果 样 本 是 数值 型 ,还 能 得 到 样本 数据 


的 最 小 值 . 最 大 值 、 四 分 位 数 和 均值 信息 。 首 先 使 用 summary() 函 数 查 看 MySQL. 数据 库 中 
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K user. action 的 字段 behavior type 的 类 型 ,命令 如 下 : 





»summary(user action$behavior type) 











Length Class Mode 
300000 character character 








Kd 


可 以 看 出 ,原来 的 MySQL 数据 中 , 表 user. action 的 字段 behavior type 的 类 型 是 字符 
这 样 不 方便 做 比较 ,需要 把 behavior_type 的 字段 类 型 转换 为 数值 型 ,命令 如 下 : 





> summary (as.numeric(user action$behavior type) ) 





该 命令 执行 后 会 得 到 如 下 结果 : 





Min. lstQu. Median Mean 3rdQu. Max. 
1.000 1.000 1.000 1.105 1.000 4.000 





接 下 来 用 柱状 图 展示 消费 者 的 行为 类 型 的 分 布 情况 ,命令 如 下 : 








» library (ggplot2) 
»ggplot(user action,aes(as.numeric(behavior type)))*geom histogram() 








上 面 两 行 命令 中 : 第 一 行 library(ggplot2) 命 令 用 来 导入 依赖 库 ggplot2; 第 二 行 命令 用 


于 完成 绘图 。 和 运行 结果 如 图 12-7 所 示 。 
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图 12-7 消费 行为 柱状 图 
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从 图 12-7 可 以 看 出 ,大 部 分 消费 者 行为 仅仅 只 是 浏览 ,只 有 很 少 部 分 的 消费 者 会 购买 商品 。 
3. 分 析 销 量 排名 前 十 的 商品 及 其 销量 
分 析 销 量 排名 前 十 的 商品 及 其 销量 ,可 以 采用 如 下 命令 : 





>temp< - subset (user_action,as.numeric (behavior type)--4) # 获 取 子 数据 集 
> count<- sort (table (temp$item category),decreasing-T) # 排 序 
>print (count [1:10]) # 获 取 第 1~10 的 排序 结果 











在 上 面 的 命令 语句 中 ,subset() 函 数 用 于 从 某 一 个 数据 集中 选择 出 符合 某 条 件 的 数据 
或 者 相关 的 列 。table() 对 应 的 就 是 统计 学 中 的 “ 列 联 表 ”, 是 一 种 记录 频数 的 方法 。sort() 
用 来 完成 排序 ,返回 排序 后 的 数值 向 量 。 上 述 命令 执行 结果 如 下 : 





6344 1863 5232 12189 7957 4370 13230 11537 1838 5894 
79 46 45 42 40 34 33 32 31 30 





上 面 的 执行 结果 中 ,第 一 行 表示 商品 分 类 ,第 二 行 表示 该 类 的 销量 。 
接 下 来 用 散 点 图 展示 上 面 的 分 析 结 果 ,命令 如 下 : 





»result«-as.data.frame(count[1:10]) # 将 count 和 矩阵 结果 转换 成 数据 框 
? ggplot (result,aes (Varl, Freq, col- factor (Varl)))* geom point () 











在 上 面 的 命令 语句 中 ,第 一 行 命令 通过 as. data. frame() 函数 把 矩阵 转换 成 为 数据 框 ， 
第 二 行 命令 完成 散 点 图 绘制 。 具 体 执行 结果 如 图 12-8 所 示 。 
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图 12-8 商品 销量 散 点 图 
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4 分 析 每 年 的 哪个 月 份 销量 最 大 


从 MySQL 直接 获取 的 数据 中 ,visit_date 变量 都 是 2014 年 份 ,并 没有 划分 出 具体 的 月 
份 ,因此 ,需要 在 数据 集中 增加 一 列 关于 月 份 的 数据 ,命令 如 下 : 





»month«- substr(user action$visit date,6,7) dvisit date 变量 中 截取 月 份 
»user action«- cbind(user action,month) #user_action 增加 一 列 月 份 数据 





接 下 来 用 柱状 图 展示 消费 者 在 一 年 的 不 同月 份 的 购买 量 情况 ,命令 如 下 : 





>ggplot (user_actionvaes (as.numeric (behavior type),col- factor (month) ))+geom histogram() 








*facet grid(.~month) 





在 上 面 这 条 命令 中 ,aes() 函 数 中 的 col 属性 可 以 用 来 设置 颜色 。factor() 函数 则 是 把 数 
值 变量 转换 成 分 类 变量 ,从 而 可 以 用 不 同 的 颜色 表示 。 如 果 不 使 用 factor O 函数, 颜色 将 以 
同一 种 颜色 渐变 的 颜色 表现 。facet_grid(. 一 month) 表 示 柱 状 图 按照 不 同月 份 进行 分 区 。 
由 于 本 案例 中 ,MySQL 获取 的 数据 中 只 有 11 月 份 和 12 月 份 的 数据 ,所 以 ,执行 结果 中 只 
会 显示 两 个 表格 。 上 面 命令 的 具体 执行 结果 如 图 12-9 所 示 。 


Hi 12 


150000 - 
100000 ~ factor(month) 
Ë 
8 LL 
| [ 
50000 - 
0- 


1 2 3 41 2 3 4 
behavior type 
图 12-9 消费 者 购买 量 月 份 分 布 图 
5. 分 析 国 内 哪个 省 份 的 消费 者 最 有 购买 欲望 
可 以 使 用 如 下 语句 来 分 析 国 内 各 个 省 份 的 消费 者 的 购买 情况 : 
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> library (recharts) 
»rel«-as.data.frame (table (tempSprovince)) 
»provinces«- rel$Varl 
»x-c() 
>for (n in provinces)( 
»x[length (x)+1]=nrow (subset (temp, (province--n))) 
>} 
>mapData< - data.frame (province= rel$Varl,count-x, stringsAsFactors=F) 
# 设 置地 图 信息 
> eMap (mapData, namevar=~province, datavar=~count) sm dh rp E Jb Fd 











在 上 面 的 命令 语句 中 ,nrow() 用 来 计算 数据 集 的 行 数 。 


12.8 kx 


综合 实验 案例 是 大 数据 技术 体系 学 习 的 重要 内 容 , 可 以 帮助 读者 形成 对 大 数据 技术 综 
合 运用 方法 的 全 局 性 认识 ,让 前 面 各 个 章节 所 学 的 技术 有 效 融 会 贯通 ,通过 多 种 技术 的 组 合 
来 解决 实际 应 用 问题 。 本 章 的 综合 实验 案例 涵盖 了 Linux. MySQL, Hadoop, HBase, Hive, 
Sqoop, R, Eclipse 等 系统 和 软件 的 安装 和 使 用 方法 ,这 些 软件 的 安装 和 使 用 方法 ,被 有 效 融 
合 到 实验 的 各 个 流程 ,可 以 有 效 加深 对 各 种 技术 的 理解 。 

输入 大 量 命令 ,系统 会 自动 保存 人 们 历史 上 输入 的 命令 ,可 以 按键 盘 上 的 “上 箭头 ”和 
“下 箭头 ?按钮 , 翻 看 历史 命令 ,找到 某 条 历史 命令 后 ,可 以 直接 按 Enter 键 执 行 该 命令 ,这 
样 ,就 不 需要 重复 输入 一 些 较 长 的 命令 了 ,大 大 节省 了 命令 输入 时 间 。 
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13.1 实验 一 : 熟悉 常用 的 Linux 操作 和 Hadoop 操作 
本 实验 对 应 第 3 章 的 内 容 。 
13.1.1 实验 目的 
Hadoop 运行 在 Linux 系统 上 ,因此 ,需要 学 习 实践 一 些 常用 的 Linux 命令 。 本 实验 旨 
在 熟悉 常用 的 Linux 操作 和 Hadoop 操作 ,为 顺利 开展 后 续 其 他 实验 奠定 基础 。 
13.1.2 实验 平台 
CD 操作 系统 : Linux( 建 议 Ubuntu 16. 04)。 
(2) Hadoop 版 本 : 2.7.1。 
13.1.3 实验 步骤 
1 熟悉 常用 的 Linux 操作 


1) cd 命令 : 切换 目录 

(1) 切换 到 目录 /usr/local。 

(2) 切换 到 当前 目录 的 上 一 级 目录 。 

(3) 切换 到 当前 登录 Linux 系统 的 用 户 自己 的 主 文件 夹 。 


D ls 命令 : 查看 文件 与 目录 
查看 目录 /usr 下 的 所 有 文件 和 目录 。 


3) mkdir 命令 : 新 建 目录 
CD 进入 /tmp 目录 ,创建 一 个 名 为 a 的 目录 ,并 查看 /tmp 目录 下 已 经 存在 哪些 目录 。 
(2) 进入 /tmp 目录 ,创建 目录 al/a2/a3/a4。 


4) rmdir 命令 : 删除 空 的 目录 

CD 将 上 面 创建 的 目录 a( 在 /tmp 目录 下 面 ) 删 除 。 

(2) 删除 上 面 创建 的 目录 al/a2/a3/a4( 在 /tmp 目录 下 面 ), 然 后 查看 /tmp 目录 下 面 存 
在 哪些 目录 。 
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5) cp 命令 : 复制 文件 或 目录 
CD 将 当前 用 户 的 主 文件 夹 下 的 文件 . bashrc 复制 到 目录 /usr 下 ,并重 命 名 为 bashrcl 。 
(2) 在 目录 /tmp 下 新 建 目录 test, 再 把 这 个 目录 复制 到 /usr 目录 下 。 


6) mv 命令 : 移动 文件 与 目录 ,或 重 命名 
CD 将 /usr 目录 下 的 文件 bashrcl 移动 到 /usr/test HRF. 
(2) 将 /usr 目录 下 的 test 目录 重 命 名 为 test2。 


7) rm 命令 : 移 除 文件 或 目录 
(1) 将 /usr/test2 目录 下 的 bashrcl 文件 删除 。 
(2) 将 /usr 目录 下 的 test2 目录 删除 。 


8) cat 命令 : 查看 文件 内 容 
查看 当前 用 户主 文件 夹 下 的 . bashre 文件 的 内 容 。 


9) tac 命令 : 反 向 查看 文件 内 容 

反 向 查看 当前 用 户主 文件 夹 下 的 . bashrc 文件 的 内 容 。 

10) more 命令 : 一 页 一 页 翻动 查看 

翻 页 查看 当前 用 户主 文件 夹 下 的 . bashrc 文件 的 内 容 。 

11) head 命令 : 取出 前 面 几 行 

CD 查看 当前 用 户主 文件 夹 下 . bashrc 文件 的 内 容 的 前 20 行 。 

(2) 查看 当前 用 户主 文件 夹 下 . bashrc 文件 的 内 容 , 后 面 50 行 不 显示 ,只 显示 前 面 


12) tail 命令 : 取出 后 面 几 行 
CD 查看 当前 用 户主 文件 夹 下 . bashre 文件 的 内 容 的 最 后 20 fT. 
(2) 查看 当前 用 户主 文件 夹 下 . bashrc 文件 的 内 容 , 并 且 只 列 出 50 行 以 后 的 数据 。 


13) touch 命令 : 修改 文件 时 间或 创建 新 文件 
(1) 在 /tmp 目录 下 创建 一 个 空 文件 hello, 并 查看 文件 时 间 。 
(2) 修改 hello 文件 ,将 文件 时 间 调 整 为 5 天 前 。 


14) chown 命令 : 修改 文件 所 有 者 的 权限 
将 hello 文件 所 有 者 改 为 root 账号 ,并 查看 属性 。 


15) find 命令 : 文件 查找 

找 出 主 文件 夹 下 文件 名 为 . bashrc 的 文件 。 

16) tar 命令 : 压缩 命令 

(1) 在 根 目录 /下 新 建文 件 夹 test, 然 后 在 根 目录 “/” 下 打包 成 test. tar. gz。 
(2) 把 上 面 的 test. tar. gz 压缩 包 , 解 压缩 到 /tmp 目录 。 


17) grep 命令 : 查找 字符 串 
从 一 /.bashrc 文件 中 查找 字符 串 examples'。 
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18) 配置 环境 变量 
(1) 请 在 一 /. bashrc 中 设置 ,配置 Java 环境 变量 。 
(2) 查看 JAVA_HOME 变量 的 值 。 


2 熟悉 常用 的 Hadoop 操作 


(1) 使 用 hadoop 用 户 登 录 Linux 系统 ,启动 Hadoop(Hadoop 的 安装 目录 为 /usr/ 
local/hadoop) ,为 hadoop 用 户 在 HDFS 中 创建 用 户 目 录 /user/hadoop。 

(2) 接着 在 HDFS 的 目录 /user/hadoop 下 ,创建 test 文件 夹 , 并 查看 文件 列表 。 

(3) 将 Linux 系统 本 地 的 一 /. bashre 文件 上 传 到 HDFS 的 test 文件 夹 中 ,并 查看 test. 

(D 将 HDFS 文件 夹 test 复制 到 Linux 系统 本 地 文件 系统 的 /usr/local/hadoop H 
XT. 


13.1.4. 实验 报告 
实验 报告 如 表 13-1 所 示 。 





























表 13-1 实验 报告 
实验 报告 
题目 姓名 日 期 
实验 环境 : 
实验 内 容 与 完成 情况 : 
出 现 的 问题 : 





解决 方案 ( 列 出 遇 到 的 问题 和 解决 办 法 , 列 出 没有 解决 的 问题 ) : 
注 : 实验 答案 请 见 附录 A。 


13.2 实验 二 : 熟悉 常用 的 HDFS 操作 


本 实验 对 应 第 4 章 的 内 容 。 
13.2.1 实验 目的 


CD 理解 HDFS 在 Hadoop 体系 结构 中 的 角色 。 
(2) 熟练 使 用 HDFS 操作 常用 的 shell 命令 。 
(3) 熟悉 HDFS 操作 常用 的 Java API。 


13.2.2 实验 平台 


(1) 操作 系统 : Linux( 建 议 Ubuntu 16. 04) 。 
(2) Hadoop 版 本 : 2.7.1。 

(3) JDK 版 本 : 1.7 或 以 上 版 本 。 

(4) Java IDE: Eclipse, 
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13.2.3 实验 步骤 


CD 编程 实现 以 下 功能 ,并 利用 Hadoop 提供 的 shell 命令 完成 相同 任务 。 

QD 向 HDFS 中 上 传 任意 文本 文件 ,如 果 指 定 的 文件 在 HDFS 中 已 经 存在 , 则 由 用 户 来 
指定 是 追加 到 原 有 文件 末尾 还 是 覆盖 原 有 的 文件 。 

© 从 HDFS 中 下 载 指定 文件 ,如 果 本 地 文件 与 要 下 载 的 文件 名 称 相同 , 则 自动 对 下 载 
的 文件 重 命名 。 

@ 将 HDFS 中 指定 文件 的 内 容 输出 到 终端 中 。 

(D 显示 HDFS 中 指定 的 文件 的 读 写 权限 、 大 小 、 创 建 时 间 、 路 径 等 信息 。 

© 给 定 HDFS 中 某 一 个 目录 ,输出 该 目录 下 的 所 有 文件 的 读 写 权 限 、 大 小 、 创 建 时 间 、 
路 径 等 信息 ,如 果 该 文件 是 目录 , 则 递归 输出 该 目录 下 所 有 文件 相关 信息 。 

© 提供 一 个 HDFS 内 的 文件 的 路 径 , 对 该 文件 进行 创建 和 删除 操作 。 如 果 文 件 所 在 目 
录 不 存在 , 则 自动 创建 目录 。 

CD 提供 一 个 HDFS 的 目录 的 路 径 ,对 该 目录 进行 创建 和 删除 操作 。 创 建 目录 时 ,如 果 
目录 文件 所 在 目录 不 存在 , 则 自动 创建 相应 目录 ;删除 目录 时 ,由 用 户 指定 当 该 目录 不 为 空 
时 是 否 还 删除 该 目录 。 

@ 向 HDFS 中 指定 的 文件 追加 内 容 ,由 用 户 指定 内 容 追 加 到 原 有 文件 的 开头 或 结尾 。 

© 删除 HDFS 中 指定 的 文件 。 

d» 在 HDFS 中 ,将 文件 从 源 路 径 移动 到 目的 路 径 。 

(2) 编程 实现 一 个 类 MyFSDataInputStream, 该 类 继承 org. apache. hadoop. fs. 
FSDataInputStream, 要 求 如 下 : 实现 按 行 读 取 HDFS 中 指定 文件 的 方法 readLine O ,如果 
读 到 文件 末尾 , 则 返回 空 ; 否 则 ,返回 文件 一 行 的 文本 。 

G) 查看 Java 帮助 手册 或 其 他 资料 ,用 java. net. URL 和 org. apache. hadoop. fs. 
FsURLStreamHandlerFactory 编程 完成 输出 HDFS 中 指定 文件 的 文本 到 终端 中 。 


13.2.4 实验 报告 
实验 报告 如 表 13-2 所 示 。 
































表 13-2 实验 报告 
实验 报告 
题目 姓名 日 期 
实验 环境 : 
实验 内 容 与 完成 情况 : 
出 现 的 问题 : 





解决 方案 ( 列 出 遇 到 的 问题 和 解决 办 法 , 列 出 没有 解决 的 问题 ) : 











注 : 实验 答案 请 见 附录 A。 
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13.3 实验 三 : 熟悉 常用 的 HBase 操作 


本 实验 对 应 第 5 章 的 内 容 。 
13.3.1 实验 目的 
(1) 理解 HBase 在 Hadoop 体系 结构 中 的 角色 。 


(2) 熟练 使 用 HBase 操作 常用 的 Shell 命令 。 
(3) 熟悉 HBase 操作 常用 的 Java API。 


13.3.2 实验 平台 


(1) 操作 系统 : Linux( 建 议 Ubuntu 16. 04)。 
(2) Hadoop 版 本 : 2.7.1。 

(3) HBase 版 本 : 1.1.5。 

(4) JDK 版 本 : 1.7 或 以 上 版 本 。 

(5) Java IDE: Eclipse。 


13.3.3 实验 步骤 
l 编程 实现 以 下 指定 功能 ,并 用 Hadoop 提供 的 HBase Shell 命令 完成 相同 任务 
(1) 列 出 HBase 所 有 的 表 的 相关 信息 ,例如 表 名 。 
(2) 在 终端 打印 出 指定 的 表 的 所 有 记录 数据 。 
(3) 向 已 经 创建 好 的 表 添 加 和 删除 指定 的 列 族 或 列 。 
(4) 清空 指定 的 表 的 所 有 记录 数据 。 
(5) 统计 表 的 行 数 。 


2 HBase 数据 库 操 作 


(1) 现 有 以 下 关系 型 数据 库 中 的 表 和 数据 ( 见 表 13-3 一 表 13-5) ,要 求 将 其 转换 为 适合 
于 HBase 存储 的 表 并 插入 数据 。 


表 13-3 学 生 表 (Student) 











学 号 (S_No) 姓名 (S_Name) 性 别 (S_Sex) 年 龄 (S_Age) 
2015001 Zhangsan male 23 
2015003 Mary female 22 





2015003 Lisi male 24 
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表 13-4 课程 表 (Course) 














课程 号 (C_No) 课程 名 (C_Name) 学 分 (C_Credit) 
123001 Math 2.0 
123002 Computer Science 5.0 
123003 English 3.0 





表 13-5 选课 表 (SC) 





























学 号 (SC_Sno) 课程 号 (SC_Cno) 成 绩 (SC_Score) 
2015001 123001 86 
2015001 123003 69 
2015002 123002 77 
2015002 123003 99 
2015003 123001 98 
2015003 123002 95 


(2) 请 编程 实现 以 下 功能 。 

(D createTable(String tableName, String[ ] fields) 。 

创建 表 , 参 数 tableName 为 表 的 名 称 ,字符 串 数组 fields 为 存储 记录 各 个 字段 名 称 的 数 
组 。 要 求 当 HBase 已 经 存在 名 为 tableName 的 表 的 时 候 , 先 删除 原 有 的 表 , 然 后 再 创建 新 
的 表 。 

(2) addRecord(String tableName, String row, String[ | fields. String[ ] values), 

I5] 3€ tableName,fT row( 用 S_Name 表示 ) 和 字符 串 数 组 fields 指定 的 单元 格 中 添加 对 
应 的 数据 values。 其 中 ,fields 中 每 个 元 素 如 果 对 应 的 列 族 下 还 有 相应 的 列 限 定 符 , 用 
“columnFamily:column” 表 示 。 例 如 ,同时 向 Math, Computer Science, English 三 列 添加 成 
绩 时 ,字符 串 数组 fields 为 {"Score:Math","Score:Computer Science", "Score: English") , 
数组 values 存储 这 三 门 课 的 成 绩 。 

(3) scanColumn(String tableName, String column), 

浏览 表 tableName 某 一 列 的 数据 ,如 果 某 一 行 记录 中 该 列 数据 不 存在 , 则 返回 null。 要 
求 当 参数 column 为 某 一 列 族 名 称 时 ,如 果 底 下 有 若干 个 列 限 定 符 , 则 要 列 出 每 个 列 限 定 符 
代表 的 列 的 数据 ; 当 参 数 column 为 某 一 列 具体 名 称 ( 例 如 “Score: Math”) 时 ,只 需要 列 出 该 
列 的 数据 。 

@ modifyData(String tableName. String row. String column), 

修改 表 tableName, 即 修改 行 row( 可 以 用 学 生 姓 名 S. Name 表示 )、 列 column 指定 的 
单元 格 的 数据 。 

© deleteRow(String tableName, String row) 。 

删除 表 tableName 中 row 指定 的 行 的 记录 。 
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13.3.4 实验 报告 
实验 报告 如 表 13-6 所 示 。 
































表 13-6 实验 报告 
实验 报告 
题目 姓名 日 期 
实验 环境 : 
实验 内 容 与 完成 情况 : 
出 现 的 问题 : 





解决 方案 ( 列 出 遇 到 的 问题 和 解决 办 法 , 列 出 没有 解决 的 问题 ) : 











注 : 实验 答案 请 见 附录 A。 


13.4 实验 四 : NoSQL 和 关系 数据 库 的 操作 比较 


本 实验 对 应 第 6 章 的 内 容 。 
13.4.1 实验 目的 


CD 理解 4 种 数据 库 (MySQL HBase, Redis 和 MongoDB) 的 概念 及 不 同 点 。 
(2) 熟练 使 用 4 种 数据 库 操作 常用 的 Shell 命令 。 
(3) 熟悉 4 种 数据 库 操作 常用 的 Java API. 


13.4.2 实验 平台 


(1) 操作 系统 : Linux( 建 议 Ubuntu 16. 04) 。 
(2) Hadoop 版 本 : 2.7.1。 

(3) MySQL 版 本 : 5.6。 

(4) HBase 版 本 : 1.1.2。 

(5) Redis 版 本 : 3.0.6。 

(6) MongoDB 版 本 : 3.2.6. 

CD JDK 版 本 : 1.7 或 以 上 版 本 。 

(8) Java IDE: Eclipse。 


13.4.3 实验 步骤 
1 MySQL 数据 库 操作 


Student 表 如 表 13-7 Bros 。 
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表 13-7 Student X 
Name English Math Computer 
zhangsan 69 86 77 
lisi 55 100 88 














(1) 根据 上 面 给 出 的 Student 表 , 在 MySQL 数据 库 中 完成 如 下 操作 。 


(D 在 MySQL 中 创建 Student 表 , 并 录入 数据 。 
© 用 SQL 语句 输出 Student 表 中 的 所 有 记录 。 
(3) 查询 zhangsan 的 Computer 成 绩 。 

@ 修改 lisi 的 Math 成 绩 , 改 为 95。 

(2) 根据 上 面 已 经 设计 出 的 Student 表 , 使 用 MySQL 的 Java 客户 端 编程 实现 以 下 











RE. 
O 向 Student 表 中 添加 如 下 所 示 的 一 条 记录 : 
@ 获取 scofield 的 English 成 绩 信息 。 
2. HBase 数据 库 操作 
Student 表 如 表 13-8 所 示 。 
表 13-8 Student 表 
score 
name 
English Math Computer 
zhangsan 69 86 77 
lisi 55 100 88 














(1) 根据 上 面 给 出 的 Student 表 的 信息 ,执行 如 下 操作 。 
(D 用 Hbase Shell 命令 创建 学 生 表 Student。 
© 用 scan 命令 浏览 Student 表 的 相关 信息 。 
© 查询 zhangsan 的 Computer 成 绩 。 

@ 修改 lisi 的 Math 成 绩 , 改 为 95。 

(2) 根据 上 面 已 经 设计 出 的 Student 表 , 用 HBase API 编程 实现 以 下 操作 。 


CD 添加 数据 : English 为 45; Math 为 89;Computer Jy 100, 





scofield 





45 





89 





100 





© 获取 scofield 的 English 成 绩 信息 。 


3. Redis 数据 库 操作 
Student 键 值 对 如 下 : 
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English: 55 
Math: 100 
Computer: 88 











(1) 根据 上 面 给 出 的 键 值 对 ,完成 如 下 操作 。 

(D HH Redis 的 哈 希 结构 设计 出 学 生 表 Student ( 键 值 可 以 用 student. zhangsan 和 
student, lisi 来 表示 两 个 键 值 属于 同一 个 表 ) 。 

© 用 hgetall 命令 分 别 输出 zhangsan 和 lisi 的 成 绩 信息 。 

( 用 hget 命令 查询 zhangsan 的 Computer 成 绩 。 

@@ 修改 lisi 的 Math 成 绩 , 改 为 95。 

(2) 根据 上 面 已 经 设计 出 的 学 生 表 Student, H Redis 的 Java 客户 端 编程 (jedis) ,实现 





如 下 操作 。 
CD 添加 数据 : English Jy 45; Math 为 89;Computer 为 100。 该 数据 对 应 的 键 值 对 形式 
如 下 : 
scofield:{ 
English: 45 
Math: 89 
Computer: 100 


} 











@ 获取 scofield 的 English 成 绩 信息 。 
4. MongoDB 数据 库 操作 
Student 文档 如 下 : 





{ 
"name": "zhangsan", 
"score": ( 
"English": 69, 
"Math": B6, 
"Computer": 77 
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"name": "lisi", 

"score": ( 
"English": 55, 
"Math": 100, 
"Computer": 88 


) 








(1) 根据 上 面 给 出 的 文档 ,完成 如 下 操作 。 

(D 用 MongoDB Shell 设计 出 student 集合 。 

© 用 find() 方 法 输出 两 个 学 生 的 信息 。 

© 用 find() 方 法 查询 zhangsan 的 所 有 成 绩 ( 只 显示 score 9ID 。 
@ 修改 lisi 的 Math 成 绩 , 改 为 95。 


(20 根据 上 面 已 经 设计 出 的 Student 集合 ,用 MongoDB 的 Java 客户 端 编 程 ,实现 如 下 


操作 。 
C 添加 数据 : English Jy 45; Math 为 89;Computer 为 100。 
与 上 述 数据 对 应 的 文档 形式 如 下 : 





t 
"name": "scofield", 
"score": ( 
"English": 45, 
"Math": 89, 
"Computer": 100 


) 











© 获取 scofield 的 所 有 成 绩 成 绩 信 息 ( 只 显示 score 91) 。 


13.4.4 实验 报告 
实验 报告 如 表 13-9 所 示 。 
































表 13-9 实验 报告 
实验 报告 
题目 姓名 日 期 
实验 环境 : 
实验 内 容 与 完成 情况 : 
出 现 的 问题 : 








解决 方案 ( 列 出 遇 到 的 问题 和 解决 办 法 , 列 出 没有 解决 的 问题 ) : 








ik. 实验 答案 请 见 附录 A. 
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13.5 实验 五 : MapReduce 初级 编程 实践 


本 实验 对 应 第 7 章 的 内 容 。 
13.5.1 实验 目的 


(1) 通过 实验 掌握 基本 的 MapReduce 编程 方法 。 
(2) 掌握 用 MapReduce 解决 一 些 常见 的 数据 处 理 问 题 ,包括 数据 去 重 \、 数 据 排序 和 数 
据 挖掘 等 。 


13.5.2 实验 平台 


CD 操作 系统 : Linux( 建 议 Ubuntu 16. 04) 。 
(2) Hadoop 版 本 : 2.7.1。 


13.5.3 实验 步骤 
1 编程 实现 文件 合并 和 去 重 操作 


对 于 两 个 输入 文件 , 即 文件 A 和 文件 B, 编 写 MapReduce 程序 ,对 两 个 文件 进行 合并 ， 
并 剔除 其 中 重复 的 内 容 , 得 到 一 个 新 的 输出 文件 C。 下 面 是 输入 文件 和 输出 文件 的 一 个 样 
例 供 参考 。 

输入 文件 A 的 样 例如 下 : 


























20170101 x 

20170102 y 

20170103 x 

20170104 y 

20170105 z 

20170106 x 

输入 文件 B 的 样 例如 下 : 
20170101 y 

20170102 y 

20170103 x 

20170104 E. 

20170105 y 

根据 输入 文件 A 和 也 合并 得 到 的 输出 文件 C 的 样 例如 下 : 
20170101 x 

20170101 Y 
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20170102 
20170103 
20170104 
20170104 
20170105 
20170105 
20170106 





x NK NK % «X 








2 编写 程序 实现 对 输入 文件 的 排序 


现在 有 多 个 输入 文件 ,每 个 文件 中 的 每 行内 容 均 为 一 个 整数 。 要 求 读 取 所 有 文件 中 的 
整数 ,进行 升序 排序 后 ,输出 到 一 个 新 的 文件 中 ,输出 的 数据 格式 为 每 行 两 个 整数 ,第 一 个 数 
字 为 第 二 个 整数 的 排序 位 次 ,第 二 个 整数 为 原 待 排列 的 整数 。 下 面 是 输入 文件 和 输出 文件 
的 一 个 样 例 供 参考 。 

输入 文件 1 的 样 例如 下 : 





33 
37 
12 
40 





输入 文件 2 的 样 例如 下 : 








输入 文件 3 的 样 例如 下 : 





1 
45 
25 





根据 输入 文件 1.2 和 3 得 到 的 输出 文件 如 下 : 





ao ww 
m 
[S 











296. 大 数据 基础 编程 、 实 验 和 案例 教程 





7 33 
8 37 
9 39 
10 40 
11 45 











3. 对 给 定 的 表格 进行 信息 挖掘 
面 给 











T 出 一 个 child-parent HRH , KRI di Hc rp TERR, A th HELP TE OG IRIS 
表格 。 
输入 文件 内 容 如 下 : 
child parent 
Steven Lucy 
Steven Jack 
Jone Lucy 
Jone Jack 
Lucy Mary 
Lucy Frank 
Jack Alice 
Jack Jesse 
David Alice 
David Jesse 
Philip David 
Philip Alma 
Mark David 
Mark Alma 
输出 文件 内 容 如 下 : 
grandchild grandparent 
Steven Alice 
Steven Jesse 
Jone Alice 
Jone Jesse 
Steven Mary 
Steven Frank 
Jone Mary 
Jone Frank 
Philip Alice 
Philip Jesse 
Mark Alice 
Mark Jesse 











13.5.4 实验 报告 
实验 报告 如 表 13-10 Bros 。 
表 13-10 实验 报告 
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实验 报告 





题目 姓名 日 期 




















实验 环境 : 





解决 问题 的 思路 : 





实验 内 容 与 完成 情况 : 





出 现 的 问题 : 





解决 方案 ( 列 出 遇 到 的 问题 和 解决 办 法 , 列 出 没有 解决 的 问题 ) : 
注 : 实验 答案 请 见 附录 A。 
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CE A 
大 数据 课程 实验 答案 


本 部 分 内 容 为 本 书 相 关 章 节 实验 题目 的 答案 , 仅 供 参考 ,包含 了 以 下 5 个 实验 的 答案 。 

(1) 实验 一 : 熟悉 常用 的 Linux 操作 和 Hadoop 操作 。 

(2) 实验 二 : 熟悉 常用 的 HDFS 操作 。 

(3) 实验 三 : 熟悉 常用 的 HBase 操作 。 

(4) 实验 四 : NoSQL 和 关系 数据 库 的 操作 比较 。 

(5) 实验 五 : MapReduce 初级 编程 实践 。 

为 了 方便 读者 直接 使 用 答案 中 的 代码 ,本 书 官网 “下 载 专区 ”的 “实验 答案 ”目录 下 ,提供 
了 附录 A 内 容 的 电子 书 。 


A.1 实验 一 : 熟悉 常用 的 Linux 操作 和 Hadoop 操作 
本 实验 对 应 第 3 章 的 内 容 。 
A.1.1 实验 目的 


Hadoop 运行 在 Linux 系统 上 ,因此 ,需要 学 习 实 践 一 些 常用 的 Linux 命令 。 本 实验 旨 
在 熟悉 常用 的 Linux 操作 和 Hadoop 操作 ,为 顺利 开展 后 续 其 他 实验 奠定 基础 。 


A.1.2 实验 平台 


(1) 操作 系统 : Linux( 建 议 Ubuntu 16. 04)。 
(2) Hadoop 版 本 : 2.7.1, 


A.1.3 实验 步骤 
1 熟悉 常用 的 Linux 操作 


1) cd 命令 : 切换 目录 
(1) 切换 到 目录 /usr/local。 





$cd /usr/local 
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(2) 切换 到 当前 目录 的 上 一 级 目录 。 





$cd .. 





(3) 切换 到 当前 登录 Linux 系统 的 用 户 的 自己 的 主 文件 夹 。 





$cd ~ 











2) ls 命令 : 查看 文件 与 目录 
查看 目录 /usr 下 的 所 有 文件 和 目录 。 





$cd /usr 
$1s -al 











3) mkdir 命令 : 新 建 目录 
CD 进入 /tmp 目录 ,创建 一 个 名 为 a 的 目录 ,并 查看 /tmp 目录 下 已 经 存在 哪些 目录 。 





$cd /tmp 
$mkdir a 
$ls -al 





(2) 进入 /tmp 目录 ,创建 目录 al/a2/a3/a4。 





$cd /tmp 
$mkdir- p al/a2/a3/a4 











4) rmdir 命令 : 删除 空 的 目录 
CD 将 上 面 创建 的 目录 a( 在 /tmp 目录 下 面 ) 删 除 。 





$cd /tmp 
Srmdir a 











(2) 删除 上 面 创建 的 目录 al/a2/a3/a4( 在 /tmp 目录 下 面 ), 然 后 查看 /tmp 目录 下 面 存 
在 哪些 目录 。 





$cd /tmp 
$rmdir-p al/a2/a3/a4 
$ls -al 











5) cp 命令 : 复制 文件 或 目录 
CD 将 当前 用 户 的 主 文件 夹 下 的 文件 . bashrc 复制 到 目录 /usr 下 ,并 重 命名 为 bashrcl 。 





$sudo cp ~/.bashrc /usr/bashrcl 
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(2) 在 目录 /tmp 下 新 建 目录 test, 再 把 这 个 目录 复制 到 /usr 目录 下 。 








$cd /tmp 
$mkdir test 
$sudo cp - /tmp/test /usr 





6 mv 命令 : 移动 文件 与 目录 ,或 重 命名 
(1) 将 /usr 目录 下 的 文件 bashrcl 移动 到 /usr/test 目录 下 。 





$sudo mv /usr/bashrcl /usr/test 





(2) 将 /usr 目录 下 的 test 目录 重 命名 为 test2. 








$sudo mv /usr/test /usr/test2 





7) rm 命令 : 移 除 文件 或 目录 
CD 将 /usr/test2 目录 下 的 bashrcl 文件 删除 。 





$sudo rm /usr/test2/bashrcl 





(2) 将 /usr 目录 下 的 test2 目录 删除 。 








$sudo rm -r /usr/test2 





8) cat 命令 : 查看 文件 内 容 
查看 当前 用 户主 文件 夹 下 的 . bashre 文件 的 内 容 。 








$cat ~/.bashrc 





9) tac 命令; 反 向 查看 文件 内 容 
反 向 查看 当前 用 户主 文件 夹 下 的 . bashrc 文件 的 内 容 。 








$tac ~/.bashrc 





10) more 命令 : 一 页 一 页 翻动 查看 
翻 页 查看 当前 用 户主 文件 夹 下 的 . bashrc 文件 的 内 容 。 





$more ~/.bashrc 





11) head 命令 : 取出 前 面 几 行 
CD 查看 当前 用 户主 文件 夹 下 . bashre 文件 的 内 容 的 前 20 行 。 
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$head -n 20 ~/.bashrc 





(2) 查看 当前 用 户主 文件 夹 下 . bashre 文件 的 内 容 ,后 面 50 行 不 显示 ,只 显示 前 面 几 行 。 








$head -n - 50 ~/.bashrc 








12) tail 命令 : 取出 后 面 几 行 
(1) 查 看 当前 用 户主 文件 夹 下 . bashrc 文件 的 内 容 的 最 后 20 行 。 





$tail -n 20 ~/.bashrc 





(2) 查看 当前 用 户主 文件 夹 下 . bashre 文件 的 内 容 , 并 且 只 列 出 50 行 以 后 的 数据 。 











$tail -n +50 ~/.bashrc 





13) touch 命令 : 修改 文件 时 间或 创建 新 文件 
CD 在 /tmp 目录 下 创建 一 个 空 文件 hello ,并 查看 文件 时 间 。 





$cd /tmp 
$touch hello 
$1s -1 hello 





(2) 修改 hello 文件 ,将 文件 时 间 调 整 为 5 天 前 。 








$touch -d "5 days ago" hello 








14) chown 命令 : 修改 文件 所 有 者 权限 
将 hello 文件 所 有 者 改 为 root 账号 ,并 查看 属性 。 








$sudo chown root /tmp/hello 
$1s -1 /tmp/hello 








15) find 命令 : 文件 查找 
找 出 主 文件 夹 下 文件 名 为 . bashrc 的 文件 。 








$find ~ -name .bashrc 








16) tar 命令 : 压缩 命令 
CD 在 根 目 录 “/” 下 新 建文 件 夹 test, 然 后 在 根 目 录 “/” 下 打包 成 test. tar. gz。 
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$sudo mkdir /test 
$sudo tar -zcv -f /test.tar.gz test 





(2) 把 上 面 的 test. tar. gz 压缩 包 , 解 压缩 到 /tmp 目录 。 





$sudo tar -zxv -f /test.tar.gz -C /tmp 











17) grep 命令 : 查找 字符 串 
从 一 /. bashrc 文件 中 查找 字符 串 examples'。 





$grep -n 'examples' ~/.bashrc 











18) 配置 环境 变量 
COD 请 在 一 /. bashrc 中 设置 ,配置 Java 环境 变量 。 
首先 使 用 vim 编辑 器 打开 文件 一 /. bashrc ,命令 如 下 : 





$vim ~/.bashrc 





然后 在 该 文件 的 最 上 面 加 入 一 行 如 下 形式 的 语句 : 





export JAVA HOME- JDK 安装 路 径 





最 后 执行 如 下 命令 使 得 环境 变量 配置 生效 : 





$source ~/.bashrc 





(2) 查看 JAVA_HOME 变量 的 值 。 





Secho $JAVA HOME 











2 熟悉 常用 的 Hadoop 操作 


(1) 使 用 hadoop 用 户 登 录 Linux 系统 ,启动 Hadoop (Hadoop 的 安装 目录 为 /usr/ 
local/hadoop) ,为 hadoop 用 户 在 HDFS 中 创建 用 户 目 录 /user/hadoop。 





$cd /usr/local/hadoop 
$./sbin/start- dfs.sh 
$./bin/hdfs dfs -mkdir -p /user/hadoop 











(2) 接着 在 HDFS 的 目录 /user/hadoop F ,创建 test 文件 夹 ,并 查看 文件 列表 。 
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$cd /usr/local/hadoop 
$./bin/hdfs dfs -mkdir test 
$./bin/hdfs dfs -1s . 





(3) 将 Linux 系统 本 地 的 一 /. bashrc 文件 上 传 到 HDFS 的 test 文件 夹 中 ,并 查看 test; 





$cd /usr/local/hadoop 
$./bin/hdfs dfs - put ~/.bashrc test 
$./bin/hdfs dfs - 1s test 





(4) 将 HDFS 文件 夹 test 复制 到 Linux 系统 本 地 文件 系统 的 /usr/local/hadoop 目录 下 。 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -get test ./ 











A.2 实验 二 : 熟悉 常用 的 HDFS 操作 


本 实验 对 应 第 4 章 的 内 容 。 
A.2.1 实验 目的 


(D 理解 HDFS 在 Hadoop 体系 结构 中 的 角色 。 
(2) 熟练 使 用 HDFS 操作 常用 的 Shell 命令 。 
(3) 熟悉 HDFS 操作 常用 的 Java API, 


A.2.2 实验 平台 


(1) 操作 系统 : Linux( 建 议 Ubuntu 16.04). 
(2) Hadoop 版 本 : 2.7.1。 

(3) JDK 版 本 : 1.7 或 以 上 版 本 。 

(4) Java IDE: Eclipse。 


A.2.3 实验 步骤 


CD 编程 实现 以 下 功能 ,并 利用 Hadoop 提供 的 Shell 命令 完成 相同 任务 。 

中 向 HDFS 中 上 传 任意 文本 文件 .如果 指定 的 文件 在 HDFS 中 已 经 存在 , 则 由 用 户 来 
指定 是 追加 到 原 有 文件 未 尾 还 是 覆盖 原 有 的 文件 。 

a. Shell 命令 。 

检查 文件 是 否 存在 ,可 以 使 用 如 下 命令 : 





$cd /usr/local/hadoop 
$./bin/hdfs dfs -test -e text.txt 
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执行 完 上 述 命令 不 会 输出 结果 ,需要 继续 输入 命令 查看 结果 : 





$echo $? 











如 果 结 果 显示 文件 已 经 存在 , 则 用 户 可 以 选择 追加 到 原来 文件 末尾 或 者 覆盖 原来 文件 ， 
具体 命令 如 下 : 





$cd /usr/local/hadoop 

$./bin/hdfs dfs -appendToFile local.txt text.txt 4B Jm $i EC (KE 

$./bin/hdfs dfs - copyFromLocal -f local.txt text.txt # 材 盖 原 来 文件 ,第 一 种 命令 形式 
$./bin/hdfs dfs -cp - f file:///home/hadoop/local.txt text.txt 


BL WOROCUE B — Rh SEX 





实际 上 也 可 以 不 用 上 述 方式 ,而 是 采用 如 下 命令 来 实现 : 





$if $(hdfs dfs-test-e text.txt); 

$then $ (hdfs dfs- appendToFile local.txt text.txt); 
$else $ (hdfs dfs- copyFromLocal- f local.txt text.txt); 
$fi 











上 述 代码 可 视 为 一 行 代码 ,在 终端 中 输入 第 一 行 代码 后 ,代码 不 会 立即 被 执行 ,可 以 继 
续 输入 第 2 行 代码 和 第 3 行 代 码 , 直 到 输入 fi 以后, 上述 代 码 才 会 真正 执行 。 另外, 上述 代 
码 中 直接 使 用 了 hdfs 命令 ,而 没有 给 出 命令 的 路 径 , 因 为 ,这 里 假设 已 经 配置 了 PATH 环 
境 变 量 , 把 hdfs 命令 的 路 径 /usr/local/hadoop/bin 写 信 了 PATH 环境 变量 中 。 

b. Java 代码 。 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 
import java.io.* ; 


public class HDFSApi ( 
fe 
* 判断 路 径 是 否 存在 
sy 
public static boolean test (Configuration conf, String path) throws IOException { 
FileSystem fs=FileSystem.get (conf); 
return fs.exists (new Path (path)); 
$ 


[ex 

* 复制 文件 到 指定 路 径 

* 若 路 径 已 存在 , 则 进行 覆盖 

*/ 

public static void copyFronLocalFile (Configuration conf, String localFilePath, String 
remoteFilePath) throws IOException { 
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A 


FileSystem fs=FileSystem.get (conf) ; 

Path localPath- new Path (localFilePath); 

Path remotePath- new Path (remoteFilePath); 

/* fs.copyFromLocalFile 第 一 个 参数 表示 是 否 删除 源 文件 ,第 二 个 参数 表示 是 否 覆 
盖 */ 

fs.copyFromLocalFile (false, true, localPath, remotePath); 


fs.close(); 


pn 
* 追加 文件 内 容 
*/ 
public static void appendToFile (Configuration conf, String localFilePath, String 
remoteFilePath) throws IOException ( 
FileSystem fs-FileSystem.get (conf); 
Path remotePath- new Path (remoteFilePath); 
/* 创建 一 个 文件 读 人 流 * / 
FileInputStream in-new FileInputStream(localFilePath); 
/ * 创建 一 个 文件 输出 流 , 输 出 的 内 容 将 追加 到 文件 末尾 * / 
FSDataOutputStream out= fs .append (remotePath) ; 
/* 读 写 文件 内 容 * / 
byte[] data- new byte[1024]; 
int read--1; 
while((read- in.read (data))»0) ( 
out.write (data, 0, read); 
} 
out.close(); 
in.close(); 


fs.close(); 


" 
* 主 函数 
*/ 
public static void main(String[] args) { 
Configuration conf-new Configuration (); 
con£.set ("£s .default.name", "hdfs://1ocalhost:9000") ; 
String localFilePath- "/home/hadoop/text.txt"; // 本 地 路 径 
String remoteFilePath- "/user/hadoop/text.txt"; / /BDFS 路 径 
String choice- "append"; // 若 文件 存在 则 追加 到 文件 未 尾 
String choice-"overwrite"; ”// 若 文件 存在 则 覆盖 


try ( 


/* 判断 文件 是 否 存在 * / 
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Boolean fileExists- false; 
if(HDFSApi.test(conf, remoteFilePath)) ( 
fileExists-true; 
System.out.println (remoteFilePath* " Ei f£ fE .") ; 
) else ( 
System.out.println (remoteFilePath*" 不 存在 ."); 
} 
/* 进行 处 理 * / 
if (!fileExists) ( // 文 件 不 存在 , 则 上 传 
HDFSApi.copyFromLocalFile (conf, localFilePath, remoteFilePath); 
System.out.println (localFilePatht" 已 上 传 至 "+ remoteFilePath); 
) else if (choice.equals ("overwrite")) { // 选 择 覆 盖 
HDFSApi.copyFromLocalFile (conf, localFilePath, remoteFilePath); 
System.out.println (localFilePath* " 已 覆盖 "+ remoteFilePath); 
) else if (choice.equals ("append")) ( // 选 择 追 加 
HDFSApi.appendToFile (conf, localFilePath, remoteFilePath); 
System.out.println(localFilePath* " 已 追加 至 "+ remoteFilePath); 
} 
} catch (Exception e) { 


e.printStackTrace (); 











© 从 HDFS 中 下 载 指定 文件 ,如 果 本 地 文件 与 要 下 载 的 文件 名 称 相同 , 则 自动 对 下 载 
的 文件 重 命 名 。 
a. Shell 命令 。 





$if $(hdfs dfs -test -e file:///home/hadoop/text.txt); 
$then $ (hdfs dfs - copyToLocal text.txt ./text2.txt); 
$else $ (hdfs dfs - copyToLocal text.txt ./text.txt); 
$fi 





b. Java 代码 。 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 
import java.io.* ; 


public class HDFSApi ( 
"n 
* 下 载 文件 到 本 地 
* 判断 本 地 路 径 是 否 已 存在 , 若 已 存在 , 则 自动 进行 重 命名 
*/ 
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public static void copyToLocal (Configuration conf, String remoteFilePath, String 
localFilePath) throws IOException ( 
FileSystem fs-FileSystem.get (conf) ; 
Path remotePath- new Path (remoteFilePath); 
File f-new File(localFilePath); 
/* 如 果 文 件 名 存在 ,自动 重 命名 (在 文件 名 后 面 加 上 0, 1) * / 
if(f.exists()) { 
System.out.println (localFilePatht "已 存在 ."); 
Integer i=0; 
while (true) { 
f-new File(localFilePatht" "+i.toString()); 
if(!f.exists()) { 
localFilePath- localFilePatht" "+i.tostring(); 


break; 


} 
System.out.println(" 将 重新 命名 为 : "+ localFilePath); 


// 下 载 文 件 到 本 地 
Path localPath=new Path (localFilePath); 
fs.copyToLocalFile (remotePath, localPath); 


fs.close(); 


pe 
* ERM 
* f 
public static void main(String[] args) ( 
Configuration conf- new Configuration |(); 
conf.set ("£s.default.name", "hdfs://localhost:9000"); 
String localFilePath- "/home/hadoop/text .txt"; // 本 地 路 径 
String remoteFilePath- "/user/hadoop/text.txt"; //HDFS 路 径 


try i 
HDFSApi.copyToLocal(conf, remoteFilePath, localFilePath); 
System.out.println ("FRE"); 

) catch (Exception e) ( 


e.printStackTrace (); 








G 将 HDFS 中 指定 文件 的 内 容 输出 到 终端 中 。 
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a. Shell 命令 。 





Shdfs dfs -cat text .txt 





b. Java 代码 。 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 
import java.io.* ; 


public class HDFSApi ( 
[x 
* 读 取 文件 内 容 
*/ 
public static void cat (Configuration conf, String remoteFilePath) throws IOException { 
FileSystem fs-FileSystem.get (conf); 
PathremotePath- new Path (remoteFilePath); 
FSDataInputStream in- fs .open (remotePath); 
BufferedReader d- new BufferedReader (new InputStreamReader (in)); 
String line- null; 
while ((line-d.readLine()) !-null) ( 
System.out.println (line); 
i 
d.close(); 
in.close(); 


fs.close(); 


pex 
* 主 函数 
*/ 
public static void main(String[] args) { 
Configuration conf- new Configuration(); 
conf.set ("fs.default.name", "hdfs://localhost: 9000"); 
String remoteFilePath- "/user/hadoop/text .txt"; / /BDFS 路 径 


try { 
System.out .println(" 读 取 文 件 : "+ remoteFilePath); 
HDFSApi .cat (conf, remoteFilePath); 
System.out.println("\n 读 取 完 成 "); 

} catch (Exception e) { 
e.printStackTrace () ; 











@ 显示 HDFS 中 指定 的 文件 的 读 写 权 限 、 大 小 、 创 建 时 间 、 路 径 等 信息 。 
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a. Shell 命令 。 





$hdfs dfs -1s -h text.txt 





b. Java 代码 。 








import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 

import java.io. * ; 

import java.text.SimpleDateFormat; 


public class HDFSApi { 
pn 
* 显示 指定 文件 的 信息 
*/ 
public static void ls (Configuration conf, String remoteFilePath) throws IOException ( 
FileSystem fs-FileSystem.get (conf); 
Path remotePath- new Path (remoteFilePath); 
FileStatus[] fileStatuses- fs.listStatus (remotePath); 
for (FileStatus s : fileStatuses) { 
System.out.println (" 路 径 : "+ s.getPath().toString()); 
System.out.println(" 权 限 : "+ s.getPermission().toString()); 
System.out.println(" 大 小 : "*s.getLen()); 
/* 返回 的 是 时 间 戳 ,转化 为 时 间 日 期 格式 * / 
Long timeStamp- s.getModificationTime (); 
SimpleDateFormat format-new SimpleDateFormat ("yyyy- M4- dd HH:mm:ss") ; 
String date- format.format (timeStamp); 
System.out.println ("Hf fE] : "+ date); 


fs.close(); 


/x 
* 主 函数 
*/ 
public static void main(String[] args) ( 
Configuration conf-new Configuration (); 
con£.set ("£s.default.name", "hdfs://1ocalhost:9000") ; 
String remoteFilePath- "/user/hadoop/text.txt"; //HDFS 路 径 


try ( 
System.out.println(" 读 取 文 件 信息 : "+ remoteFilePath); 
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HDFSApi.ls(conf, remoteFilePath); 

System.out.println ("Wn ERER"); 
) catch (Exception e) ( 

e.printStackTrace (); 











© 给 定 HDFS 中 某 一 个 目录 ,输出 该 目录 下 的 所 有 文件 的 读 写 权限 、 大 小 、 创 建 时 间 、 
路 径 等 信息 ,如 果 该 文件 是 目录 , 则 递归 输出 该 目录 下 所 有 文件 相关 信息 。 
a. Shell 命令 。 





$cd /usr/local/hadoop 
$./bin/hdfs dfs - 1s -R -h /user/hadoop 





b. Java 代码 。 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 

import java.io.* ; 

import java.text.SimpleDateFormat; 


public class HDFSApi { 
px 
* 显示 指定 文件 夹 下 所 有 文件 的 信息 (递归 ) 
*/ 
public static void lsDir (Configuration conf, String remoteDir) throws IOException ( 

FileSystem fs- FileSystem.get (conf) ; 

Path dirPath- new Path (remoteDir); 

/* 递归 获取 目录 下 的 所 有 文件 * / 

RemoteIterator< LocatedFileStatus> remotelterator- fs.listFiles 

(dirPath, true); 

/* 输出 每 个 文件 的 信息 * / 

while (remoteIterator.hasNext()) { 
FileStatus s- remotelterator.next(); 
System.out.println (" 路 径 : "+ s.getPath().toString()); 
System.out.println (" 权 限 : "+ s.getPermission().toString()); 
System.out.println(" 大 小 : "+s.getLen()); 
/* 返回 的 是 时 间 戳 ,转化 为 时 间 日 期 格式 * / 
Long timeStamp- 3.getModificationTime () 7 
SimpleDateFormat format- new SimpleDateFormat ("yyyy- MM- dd HH:mm:ss"); 
String date- format.format (timeStamp); 
System.out.println (" 时 间 : "+date) ; 
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System.out.println(); 
] 
fs.close(); 
21 
pe 
* 主 函数 
*/ 
public static void main(String[] args) ( 
Configuration conf- new Configuration(); 
conf.set ("£s.default.name", "hdfs://localhost:9000"); 
String remoteDir- "/user/hadoop"; //HDFS 路 径 


try ( 
System.out.println(" (递归 ) 读 取 目 录 下 所 有 文件 的 信息 :  remoteDir); 
HDFSApi.lsDir(conf, remoteDir); 
System.out.println(" 读 取 完 成 ") ; 
) catch (Exception e) ( 
e.printStackTrace(); 











© 提供 一 个 HDFS 内 的 文件 的 路 径 , 对 该 文件 进行 创建 和 删除 操作 。 如 果 文 件 所 在 目 
录 不 存在 , 则 自动 创建 目录 。 
a. Shell 命令 。 





$if $ (hdfs dfs- test-d dirl/dir2); 

$then $ (hdfs dfs- touchz dirl/dir2/filename); 

$else $ (hdfs dfs-mkdir-p dirl/dir2 && hdfs dfs- touchz dirl/dir2/filename); 
$fi 

$hdfs dfs- rm dirl/dir2/filename # 删 除 文件 





b. Java 代码 。 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 
import java.io. * ; 


public class HDFSApi ( 
Lr 
* 判断 路 径 是 否 存在 
*/ 
public static boolean test (Configuration conf, String path) throws 


IOException ( 
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FileSystem fs=FileSystem.get (conf); 
return fs.exists (new Path (path)); 


pe 
* 创建 目录 
*y 
public static boolean mkdir (Configuration conf, String remoteDir) throws IOException ( 
FileSystem fs-FileSystem.get (conf) ; 
Path dirPath- new Path (remoteDir); 
boolean result- fs.mkdirs (dirPath); 
fs.close(); 


return result; 


pne 
* 创建 文件 
*/ 
public static void touchz (Configuration conf, String remoteFilePath) throws 
IOException ( 
FileSystem fs- FileSystem.get (conf); 
Path remotePath- new Path (remoteFilePath); 
FSDataOutputStream outputStream- fs.create (remotePath); 
outputStream.close|(); 


fs.close(); 


pe 
* 删除 文件 
*/ 
public static boolean rm(Configuration conf, String remoteFilePath) throws IOException 
t 
FileSystem fs-FileSystem.get (conf); 
Path remotePath- new Path (remoteFilePath); 
boolean result- fs.delete (remotePath, false); 
fs.close(); 


return result; 


/** 
* 主 函 数 
*g 
public static void main(String[] args) ( 
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Configuration conf-new Configuration (); 
con£.set ("£s.default.name", "hdfs://localhost:9000") ; 


String remoteFilePath- "/user/hadoop/input/text.txt"; //HDFS 路 径 
String remoteDir- "/user/hadoop/input"; //HDFS 路 径 对 应 的 目录 
try { 


/* 判断 路 径 是 否 存在 ,存在 则 删除 ,否则 进行 创建 * / 

if(HDFSApi.test(conf, remoteFilePath)) ( 
HDFSApi.rm(conf, remoteFilePath); // 删 除 
System.out.println (" 删 除 路 径 : "+ remoteFilePath); 


} else ( 
if(!HDFSApi.test(conf, remoteDir)) ( // 若 目录 不 存在 , 则 进行 创建 
HDFSApi.mkdir(conf, remoteDir); 
System.out.println ("8f X (f-3c : "+ remoteDir); 
} 
HDFSApi.touchz (conf, remoteFilePath); 
System.out.println (" 创 建 路 径 : "+ remoteFilePath); 
} 
} catch (Exception e) { 
e.printStackTrace(); 





) 








© 提供 一 个 HDFS 的 目录 的 路 径 ,对 该 目录 进行 创建 和 删除 操作 。 创 建 目录 时 ,如 果 
目录 文件 所 在 目录 不 存在 , 则 自动 创建 相应 目录 ;删除 目录 时 ,由 用 户 指 定 当 该 目录 不 为 空 
时 是 否 还 删除 该 目录 。 

a. Shell 命令 。 

创建 目录 的 命令 如 下 : 





$hdfs dfs -mkdir -p dirl/dir2 





删除 目录 的 命令 如 下 : 








Shdfs dfs - rmdir dirl/dir2 








上 述 命令 执行 以 后 ,如 果 目 录 非 空 , 则 会 提示 not empty, 删 除 操作 不 会 执行 。 如 果 要 
强制 删除 目录 ,可 以 使 用 如 下 命令 : 





Shdfs dfs -m -R dirl/dir2 











b. Java 代码 。 


ín 
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import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 
import java.io.* ; 


public class HDFSApi ( 
pe 
* 判断 路 径 是 否 存在 
*/ 
public static boolean test (Configuration conf, Stringpath) throws 
IOException { 
FileSystem fs-FileSystem.get (conf); 
return fs.exists (new Path (path)); 


pe 
* 判断 目录 是 否 为 空 
* true: Zi ;false: 非 空 
*/ 
public static boolean isDirEmpty (Configuration conf, String remoteDir) throws 
IOException ( 
FileSystem fs- FileSystem.get (conf); 
Path dirPath- new Path (remoteDir); 
RemoteIterator« LocatedFileStatus? remotelterator- fs.listFiles 
(dirPath, true); 


return !remoteIterator.hasNext (); 


pe 
* 创建 目录 
*/ 

public static boolean mkdir (Configuration conf, String remoteDir) throws IOException { 
FileSystem fs- FileSystem.get (conf); 
Path dirPath-new Path (remoteDir); 
boolean result- fs.mkdirs (dirPath); 
fs.close(); 


return result; 


hx 
* 删除 目录 
*/ 
public static boolean rmDir (Configuration conf, String remoteDir) throws IOException ( 
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FileSystem fs=FileSystem.get (conf) ; 
Path dirPath-new Path (remoteDir); 

/* 第 二 个 参数 表示 是 否 递归 删除 所 有 文件 * / 
boolean result= fs.delete (dirPath, true); 
fs.close(); 


return result; 


/x¥ 
* 主 函数 
*/ 
public static void main(String[] args) ( 
Configuration conf- new Configuration (); 
conf.set ("£s.default.name", hdfs://localhost:9000"); 
String remoteDir- "/user/hadoop/input"; //HDFS 目录 
Boolean forceDelete= false; // 是 否 强 制 删 除 


try { 
/* 判断 目录 是 否 存在 ,不 存在 则 创建 ,存在 则 删除 * / 
if(!HDFSApi.test (conf, remoteDir)) { 
HDFSApi .mkdir (conf, remoteDir); // 创 建 目录 
System.out .Println ("创建 目录 : "+ remoteDir); 
} else { 
if(HDFSApi.isDirEmpty (conf, remoteDir) || forceDelete) { 
// 目 录 为 空 或 强制 删除 
HDFSApi .rmDir (conf, remoteDir); 
System.out .println ("删除 目录 : "+remoteDir); 
} else ( // 目 录 不 为 空 
System.out .println(" 目 录 不 为 空 ,不 删除 : "+ remoteDir); 


} 
} catch (Exception e) { 


e.printStackTrace (); 








图 向 HDFS 中 指定 的 文件 追加 内 容 , 由 用 户 指定 内 容 追 加 到 原 有 文件 的 开头 或 结尾 。 


a. Shell 命令 。 
追加 到 原文 件 末 尾 的 命令 如 下 : 








$hdfs dfs -appendToFile local.txt text.txt 








追加 到 原文 件 的 开头 ,在 HDFS 中 不 存在 与 这 种 操作 对 应 的 命令 ,因此 ,无 法 使 用 一 条 
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命令 来 完成 。 可 以 先 移动 到 本 地 进行 操作 ,再 进行 上 传 覆盖 ,具体 命令 如 下 : 





$hdfs dfs -get text.txt 
$cat text.txt »» local.txt 
$hdfs dfs - copyFromLocal -f text.txt text.txt 











b. Java 代码 。 





import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 
import java.io.* ; 


public class HDFSApi ( 
pe 
* 判断 路 径 是 否 存在 
*/ 
public static boolean test (Configuration conf, String path) throws 
IOException ( 
FileSystem fs-FileSystem.get (conf); 
return fs.exists (new Path (path)); 


px 
* 追加 文本 内 容 
*/ 
public static void appendContentToFile (Configuration conf, String 
content, String remoteFilePath) throws IOException ( 
FileSystem fs-FileSystem.get (conf); 
Path remotePath- new Path (remoteFilePath); 
/* 创建 一 个 文件 输出 流 ,输出 的 内 容 将 追加 到 文件 未 尾 * / 
FSDataOutputStream out= fs .append (remotePath); 
out .write (content .getBytes () ) 
out.close(); 


fs.close(); 


/x 
* 追加 文件 内 容 
*/ 
public static void appendToFile (Configuration conf, String localFilePath, String 
remoteFilePath) throws IOException { 
FileSystem fs-FileSystem.get (conf) ; 
Path remotePath-new Path (remoteFilePath); 


/* 创建 一 个 文件 读 人 流 * / 
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FileInputStream in- new FileInputStream(localFilePath); 
/* 创建 一 个 文件 输出 流 , 输 出 的 内 容 将 追加 到 文件 未 尾 * / 
FSDataOutputStream out= fs.append (remotePath) ; 
/* 读 写 文件 内 容 * / 
byte[] data=new byte[1024]; 
int read--1; 
while ((read-in.read(data))»0) { 
out.write (data, 0, read); 
} 
out.close(); 
in.close(); 


fs.close(); 


pe 
* 移动 文件 到 本 地 
x 移动 后 删除 源 文件 
*/ 
public static void moveToLocalFile (Configuration conf, String 
remoteFilePath, String localFilePath) throws IOException ( 
FileSystem fs- FileSystem.get (conf); 
Path remotePath- new Path (remoteFilePath); 
Path localPath- new Path (localFilePath); 
fs.moveToLocalFile (remotePath, localPath); 


pe 
* 创建 文件 
y 
public static void touchz (Configuration conf, String remoteFilePath ) 
IOException { 
FileSystem fs=FileSystem.get (conf) ; 
Path remotePath=new Path (remoteFilePath); 
FSDataOutputStream outputStream- fs.create (remotePath); 
outputStream.close|(); 


fs.close(); 


nx 
* 主 函数 
*/ 
public static void main(String[] args) ( 
Configuration conf-new Configuration (); 
con£.set ("£s.default.name", "hdfs://1localhost:9000") ; 


throws 
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String remoteFilePath- "/user/hadoop/text.txt"; //BDFS XC fF 
String content- "新 追加 的 内 容 \n"; 


String choice- "after"; // 追 加 到 文件 未 尾 
String choice= "before"; // 追 加 到 文件 开头 
try { 


/* 判断 文件 是 否 存在 * / 
if (!HDFSApi.test (conf, remoteFilePath)) ( 
System.out.println (" 文 件 不 存在 : "+ remoteFilePath); 
} else { 
if (choice.equals ("after") ) { // 追 加 在 文件 末尾 
HDFSApi.appendContentToFile (conf, content, remoteFilePath); 
System.out .println(" 已 追加 内 容 到 文件 末尾 "+ remoteFilePath); 
} else if (choice.equals("before")) (  // 追 加 到 文件 开头 
/* 没有 相应 的 API 可 以 直接 操作 ,因此 先 把 文件 移动 到 本 地 * / 
/* 创建 一 个 新 的 HpFs, 再 按 顺 序 追 加 内 容 * / 
String localTmpPath- "/user/hadoop/tmp.txt"; 
// 移 动 到 本 地 
HDFSApi.moveToLocalFile (conf, remoteFilePath, localTmpPath); 
// 创 建 一 个 新 文件 
HDFSApi.touchz (conf, remoteFilePath); 
// 先 写 人 新 内 容 
HDFSApi.appendContentToFile (conf, content, remoteFilePath); 
// 再 写 人 原来 内 容 
HDFSApi.appendToFile (conf, localTmpPath, remoteFilePath); 
System.out.println(" 已 追加 内 容 到 文件 开头 : "+ remoteFilePath); 


} 
} catch (Exception e) { 


e.printStackTrace(); 











删除 HDFS 中 指定 的 文件 。 
a. Shell 命令 。 





$hdfs dfs -m text.txt 





b. Java 代码 。 





import org.apache.hadoop.conf.Configuration; 





import org.apache.hadoop.fs.* ; 
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import java.io.* ; 


public class HDFSApi ( 
/xx 
* 删除 文件 
六 
public static boolean rm(Configuration conf, String remoteFilePath) throws IOException 
t 
FileSystem fs-FileSystem.get (conf); 
Path remotePath- new Path (remoteFilePath); 
boolean result- fs.delete (remotePath, false); 
fs.close(); 


return result; 


pe 
* ERM 
*/ 
public static void main(String[] args) ( 
Configuration conf- new Configuration(); 
conf.set ("£s.default.name", "hdfs://localhost:9000"); 
String remoteFilePath- "/user/hadoop/text.txt"; //BDFS 文件 


try ( 
if(HDFSApi.rm(conf, remoteFilePath)) ( 
System.out.println (" 文 件 删除 : "+ remoteFilePath); 
) else { 
System.out.println (" 操 作 失 败 ( 文 件 不 存在 或 删除 失败 )") ; 
} 
} catch (Exception e) { 


e.printStackTrace(); 





D f£ HDFS 中 ,将 文件 从 源 路 径 移 动 到 目的 路 径 。 
a. Shell 命令 。 





$hdfs dfs -mv text.txt text2.txt 





b. Java 代码 。 








importorg.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.* ; 
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import java.io.* ; 


public class HDFSApi ( 
fx 
* 移动 文件 
*y 
public static boolean mv (Configuration conf, String remoteFilePath, 
String remoteToFilePath) throws IOException { 
FileSystem fs-FileSystem.get (conf) ; 
Path srcPath- new Path (remoteFilePath); 
Path dstPath- new Path (remoteToFilePath); 
boolean result- fs.rename (srcPath, dstPath); 
fs.close(); 


return result; 


Je 
* X mx 
*g, 
public static void main(String[] args) ( 
Configuration conf- new Configuration (); 
conf.set ("fs.default .name", "hdfs://localhost:9000"); 


String remoteFilePath- "hdfs:///user/hadoop/text.txt"; // 源 文件 HDFs 路 径 
String remoteToFilePath- "hdfs:///user/hadoop/new.txt"; // 目 的 HpFs 路 径 
try ( 


if (HDFSApi .mv (conf, remoteFilePath, remoteToFilePath)) { 
System.out.println ("将 文件 "*remoteFilePath*" 移动 到 "+ 
remoteToFilePath); 
)else( 
System.out.println ("操作 失败 ( 源 文件 不 存在 或 移动 失败 )"); 
} 
} catch (Exception e) { 


e.printStackTrace (); 











(2) 编程 实现 一 个 类 MyFSDataInputStream, 该 类 继承 org. apache. hadoop. fs. 
FSDataInputStream, 要 求 如 下 : 实现 按 行 读 取 HDFS 中 指定 文件 的 方法 readLineO ,如果 
读 到 文件 末尾 , 则 返回 空 ; 否 则 ,返回 文件 一 行 的 文本 。 
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import org.apache.hadoop.conf.Configuration; 
ámport org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import java.io.* ; 


public class MyFSDataInputStream extends FSDataInputStream { 
public MyFSDataInputStream (InputStream in) { 
super (in); 


/¥¥% 
* 实现 按 行 读 取 
* 每 次 读 人 一 个 字符 , 遇 到 "\n" 结 束 ,返回 一 行内 容 
*/ 
public static String readline (BufferedReader br) throws IOException { 
char[] data- new char [1024]; 





int read--1; 

int off-0; 

// 循 环 执行 时 ,br 每 次 会 从 上 一 次 读 取 结 束 的 位 置 继续 读 取 
// 因 此 该 函数 里 ,off 每 次 都 从 0 开始 


while((read-br.read(data, off, 1)) !=-1) ( 
if (String.valueOf (data [off] ) .equals ("Nn") ) ( 
offt-1; 
break; 
} 
offt-1; 


if(off»0) ( 
return String.valueOf (data); 
} else ( 


return null; 


/x 
x 读 取 文件 内 容 
*/ 
public static void cat (Configuration conf, String remoteFilePath) throws IOException ( 
FileSystem fs- FileSystem.get (conf) ; 
Path remotePath- new Path (remoteFilePath); 
FSDataInputStream in- fs.open (remotePath) ; 
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BufferedReaderbr= new BufferedReader (new InputStreamReader (in)); 

String line- null; 

while((line-MyFSDataInputStream.readline (br)) !-null) ( 
System.out.println (line); 

$ 

br.close(); 

in.close(); 


fs.close(); 


p 
* 主 函 数 
*/ 
public static void main(String[] args) { 
Configuration conf- new Configuration (); 
conf.set ("£s.default.name", "hdfs: //localhost: 9000"); 
String remoteFilePath- "/user/hadoop/text .txt"; //HDFS 路 径 
try ( 
MyFSDataInputStream.cat (conf, remoteFilePath); 
) catch (Exception e) ( 


e.printStackTrace(); 








(3) 查看 Java 帮助 手册 或 其 他 资料 ,用 java. net. URL 和 org. apache. hadoop. fs. 
FsURLStreamHandlerFactory 编程 完成 输出 HDFS 中 指定 文件 的 文本 到 终端 中 。 





import org.apache.hadoop.fs.* ; 
import org.apache.hadoop.io.IOUtils; 
import java.io.* ; 

import java.net.URL; 


public class HDFSApi ( 
static{ 
URL.setURLStreamHandlerFactory (new FsUrlStreamHandlerFactory ()); 
) 
/xx 
* 主 函数 
*/ 
public static void main(String[] args) throws Exception { 
String remoteFilePath- "hdfs:///user/hadoop/text.txt"; //BDFS 文件 
InputStream in-null; 














附录 A 大 数据 课程 实验 答案 





try{ 
/* 通过 URL 对 象 打 开 数 据 流 , 从 中 读 取 数 据 * / 
in= new URL (remoteFilePath) .openStream(); 
IOUtils.copyBytes (in,System.out, 4096, false); 
) finally( 
IOUtils.closeStream(in); 
i 











A.3 实验 三 : 熟悉 常用 的 HBase 操作 


本 实验 对 应 第 5 章 的 内 容 。 
A.3.1 实验 目的 


(1) 理解 HBase 在 Hadoop 体系 结构 中 的 角色 。 
(2) 熟练 使 用 HBase 操作 常用 的 Shell 命令 。 
(3) 熟悉 HBase 操作 常用 的 Java API. 


A.3.2 实验 平台 


(1) 操作 系统 : Linux。 

(2) Hadoop 版 本 : 2.7. 1 或 以 上 版 本 。 
(3) HBase 版 本 : 1.1.2 或 以 上 版 本 。 
(D JDK 版 本 : 1.7 或 以 上 版 本 。 

(5) Java IDE: Eclipse。 


A.3.3 实验 步骤 


本 部 分 实验 的 完整 代码 QuestionOne. java, 可 以 到 本 书 官 网 的 “下 载 专区 ”的 “实验 答 
案 " 目 录 下 载 。 


l 编程 实现 以 下 指定 功能 ,并 用 Hadoop 提供 的 HBase Shell 命令 完成 相同 任务 


CD 列 出 HBase 所 有 的 表 的 相关 信息 ,例如 表 名 。 
(D Shell 命令 。 





hbase> list 





Q Java 代码 。 





public static void listTables() throws IOException { 
init(; // 建 立 连 接 
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HTableDescriptor hTableDescriptors[]-admin.listTables(); 

for (HTableDescriptor hTableDescriptor :hTableDescriptors)( 
System.out.println (" 表 名 :"* hTableDescriptor.getNameAsString()); 

T 

close(); // 关 闭 连接 








需要 注意 的 是 ,上 述 代码 需要 放 入 到 完整 的 程序 代码 中 才能 顺利 执行 。 
(2) 在 终端 打印 出 指定 的 表 的 所 有 记录 数据 。 
(D Shell 命令 。 





hbase» scan 's1' 





@ Java 代码 。 








// 在 终端 打印 出 指定 的 表 的 所 有 记录 数据 
public static void getData (String tableName)throws IOException( 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Scan scan- new Scan () ; 
ResultScanner scanner- table.getScanner (scan); 
for (Result result:scanner)( 
printRecoder (result); 
) 
close(); 
) 
// 打 印 一 条 记录 的 详情 
public static void printRecoder (Result result)throws IOException{ 
for (Cell cell:result.rawCells())í 
System.out.print ("fj f : "+ new String(CellUtil.cloneRow(cell))); 
System.out.print (" 列 族 : "+ new String(CellUtil.cloneFamily (cell))); 
System.out.print (" 列 : "* new String(CellUtil.cloneQualifier (cell))); 
System.out .print (" 值 : "+ new String(CellUtil.cloneValue (cell))); 
System.out .println ("Hj[H]fb: "+ cell.getTimestamp()); 





(3) 向 已 经 创建 好 的 表 添 加 和 删除 指定 的 列 族 或 列 。 
O Shell 命令 。 
先 在 Shell 中 创建 表 sl ,作为 示例 表 ,命令 如 下 : 








hbase» create 's1','score' 
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然后 可 以 在 sl 中 添加 数据 ,命令 如 下 : 





hbase>put 's1','zhangsan', 'score:Math', '69" 





之 后 可 以 执行 如 下 命令 删除 指定 的 列 : 





hbase» delete 'sl','zhangsan', 'score:Math' 





@ Java 代码 。 








// 向 表 中 添加 数据 
public static void insertRow (String tableName, String rowKey, String colFamily, String col, 
String val) throws IOException ( 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Put put- new Put (rowKey.getBytes ()) 7 
put.addColumn (colFamily.getBytes (), col.getBytes(), val.getBytes()); 
table.put (put) ; 
table.close(); 
close(); 
} 
insertRow ("sl", 'zhangsan', 'score', 'Math', '69') 


// 删 除数 据 
public static void deleteRow(String tableName, String rowKey, String colFamily, String col) 
throws IOException ( 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Delete delete- new Delete (rowKey.getBytes ()); 
// 删 除 指定 列 族 
delete.addFamily (Bytes.toBytes (colFamily)); 
// 删 除 指定 列 
delete.addColumn (Bytes.toBytes (colFamily),Bytes.toBytes (col)); 
table.delete (delete); 
table.close(); 
close(); 
} 
deleteRow ("s1", 'zhangsan' , 'score' , 'Math') 








(4) 清空 指定 的 表 的 所 有 记录 数据 。 
(D Shell 命令 。 








hbase> truncate 's1' 
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@ Java 代码 。 





// 清 空 指定 的 表 的 所 有 记录 数据 

public static void clearRows (String tableName)throws IOException( 
init(); 
TableName tablename- TableName.valueOf (tableName); 
admin.disableTable (tablename); 
admin.deleteTable (tablename); 
HTableDescriptor hTableDescriptor- new HTableDescriptor (tableName); 
admin.createTable (hTableDescriptor); 
close(); 











(5) 统计 表 的 行 数 。 
(D Shell 命令 。 





hbase» count 's1' 











Q Java 代码 。 





//(5) 统 计 表 的 行 数 
public static void countRows (String tableName)throws IOException( 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Scan scan- new Scan() ; 
ResultScanner scanner- table.getScanner (scan) ; 
int num-0; 
for (Result result- scanner.next ();result!- null;result- scanner.next ()) ( 
numt +; 
) 
System.out.println ("fj :"+ num) ; 
Scanner.close(); 
close(); 











2. HBase 数据 库 操作 


CD 现 有 以 下 关系 型 数据 库 中 的 表 和 数据 ( 见 表 A-1 一 表 A-3) ,要 求 将 其 转换 为 适合 于 
HBase 存储 的 表 并 插入 数据 。 


表 A-1 学 生 表 (Student) 














学 号 (S_No) 姓名 (S_Name) 性 别 (S_Sex) 年 龄 (S_Age) 
2015001 Zhangsan male 23 
2015003 Mary female 22 
2015003 Lisi male 24 
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表 A-2 课程 表 (Course) 






































课程 号 (C_No) 课程 名 (C_Name) 学 分 (C_Credit) 
123001 Math 2.0 
123002 Computer Science 5.0 
123003 English 3.0 
表 A-3 选课 表 (SC) 

学 号 (SC_Sno) 课程 号 (SC_Cno) 成 绩 (SC_Score) 
2015001 123001 86 
2015001 123003 69 
2015002 123002 71 
2015002 123003 99 
2015003 123001 98 
2015003 123002 95 








(D 学 生 Student €, 
创建 表 的 HBase Shell 命令 语句 如 下 : 





hbase» create 'Student','S No','S Name','S Sex','S Age' 








插入 数据 的 HBase Shell 命令 如 下 : 





插入 数据 的 HBase shell 命令 





put 'Student', 's001','S_No", '2015001' 
put 'Student','s3001','S Name','Zhangsan' 
put 'Student','s3001','S Sex','male' 

put 'Student','s001','S Age','23' 


第 一 行 数据 





put 'Student','3002','S No','2015002" 
put 'Student','3002','S Name','Mary" 
put 'Student','3002','S Sex','female' 
put 'Student','s002','S Age','22' 


第 二 行 数据 








put 'Student','s003','S No', "2015003" 
put 'Student','s003','S Name', 'Lisi' 
put 'Student','s003','S Sex', 'male' 
put 'Student','s003','S Age','24' 











© 课程 Course X, 
创建 表 的 HBase Shell 命令 语句 如 下 : 








hbase> create 'Course','C No','C Name','C Credit' 
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插入 数据 的 HBase Shell 命令 如 下 : 








插入 数据 的 HBase shell 命令 
put'Course','c001','C No','123001' 
第 一 行 数据 put 'Course','c001','C Name', 'Math' 


put 'Course','c001','C Credit','2.0" 





put 'Course','c002','C No','123002' 

第 二 行 数据 ut 'Course','c002','C Name', 'Computer' 
PI -1 'omput 

put 'Course','c002','C Credit','5.0" 





put 'Course','c003','C No','123003' 
第 三 行 数据 put 'Course','c003','C Name', English" 
put 'Course','c003','C Credit','3.0" 














Q 选课 表 。 
创建 表 的 HBase Shell 命令 语句 如 下 : 





hbase> create 'SC','SC Sno','SC Cno','SC Score" 








插入 数据 的 H Base Shell 命令 如 下 : 





插入 数据 的 HBase shell 命令 





put 'SC','sc001','SC Sno', '2015001' 
第 一 行 数 据 put 'SC','scOO1','SC Cno', '123001' 
put 'SC','sc0O01','SC Score','86" 





put 'SC','sc002','SC Sno','2015001' 
第 二 行 数据 put 'SC','sc002','SC Cno', '123003' 
put 'SC','sc002','SC Score','69" 





put 'SC','sc003','SC Sno', '2015002' 
第 三 行 数据 put 'SC','sc003','SC Cno', '123002' 
put 'SC','sc003','SC Score','77"* 





put 'SC','sc004','SC Sno', '2015002* 
第 四 行 数据 put 'SC','sc004','SC Cno', '123003' 
put 'SC','sc004','SC Score','99* 





put 'SC','sc005','SC Sno','2015003' 
第 五 行 数据 put 'SC','sc005','SC Cno', '123001' 
put 'SC','sc005','SC Score','98' 





put 'SC','sc006','SC Sno','2015003' 
第 六 行 数据 put 'SC','sc006', 'SC Cno', '123002' 
put 'SC','sc006','SC Score','95' 














(2) 请 编程 实现 以 下 功能 。 
(D createTable(String tableName. String[ | fields) 。 


HRA 大 数据 课程 实验 答案 


创建 表 , 参 数 tableName 为 表 的 名 称 , 字 符 串 数组 fields 为 存储 记录 各 个 字段 名 称 的 数 
组 。 要 求 当 HBase 已 经 存在 名 为 tableName 的 表 时 , 先 删除 原 有 的 表 , 然 后 再 创建 新 的 表 。 
与 本 小 题 对 应 的 参考 代码 如 下 : 





public static void createTable (String tableName,String[] fields) throws IOException ( 
init(); 
TableName tablename- TableName.valueOf (tableName); 
if(admin.tableExists (tablename))( 
System.out.println("tableis exists!"); 
admin.disableTable (tablename); 
adnin.deleteTable (tablename) ;// 删 除 原来 的 表 
) 
HTableDescriptor hTableDescriptor- new HTableDescriptor (tablename); 
for (String str:fields)( 
HColumnDescriptor hColumnDescriptor- newHColumnDescriptor (str); 
hTableDescriptor.addFamily (hColumnDescriptor); 
} 
admin.createTable (hTableDescriptor); 


close(); 











上 述 代码 需要 放 和 人 完整 的 程序 代码 中 才 可 以 顺利 执行 ,可 以 到 本 书 官网 的 “下 载 专区 ” 
的 “实验 答案 ”目录 下 载 完整 的 程序 代码 QuestionTwo. java. 

© addRecord(String tableName, String row. String[ | fields. String[ ] values). 

I5] 3€ tableName,fT row( 用 S_Name 表示 ) 和 字符 串 数组 fields 指定 的 单元 格 中 添加 对 
应 的 数据 values。 其 中 ,fields 中 每 个 元 素 如 果 对 应 的 列 族 下 还 有 相应 的 列 限 定 符 , 用 
columnFamily:column 表示 。 例 如 ,同时 向 Math Computer Science, English 三 列 添加 成 绩 
时 ,字符 串 数组 fields X {" Score: Math" ," Score: Computer Science" ," Score: English") , 数 
组 values 存储 这 三 门 课 的 成 绩 。 

本 题 的 参考 代码 如 下 : 





public static void addRecord (String tableName, String row,String[] fields,String[] values) 
throws IOException ( 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
for (int i-0;i !-fields.length;i**)( 
Put put-new Put (row.getBytes ()); 
String[] cols-fields[i].split (":"); 
put.addColumn (cols[0].getBytes (), cols[1].getBytes (), values[i]. 
getBytes ()); 
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table.put (put); 
table.close(); 


close(); 











上 述 代 码 需要 放 和 人 完整 的 程序 代码 中 才 可 以 顺利 执行 。 

(3) scanColumn(String tableName, String column) 。 

浏览 表 tableName 某 一 列 的 数据 ,如 果 某 一 行 记录 中 该 列 数据 不 存在 , 则 返回 null。 要 
求 当 参数 column 为 某 一 列 族 名 称 时 ,如 果 底 下 有 若干 个 列 限定 符 , 则 要 列 出 每 个 列 限 定 符 
代表 的 列 的 数据 ; 当 参 数 column 为 某 一 列 具 体 名 称 (例如 “Score: Math”) 时 ,只 需要 列 出 该 
列 的 数据 。 





public static void scanColumn (String tableName,String column)throws  IOException( 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Scan scan- new Scan () ; 
Scan.addFamily (Bytes.toBytes (column)); 
ResultScanner scanner- table.getScanner (scan) ; 
for (Result result-scanner.next(); result !-null; result- scanner.next ()) ( 
showCell (result); 
) 
table.close(); 
close(); 
) 
// 格 式 化 输出 
public static void showCell (Result result){ 
Cell[] cells- result.rawCells(); 
for (Cell cell:cells)( 
System.out.println ("RowName:" new String (CellUtil.cloneRow (cell))- "); 
System.out.println ("Timetamp:"* cell.getTimestamp()-*""); 
System.out.println ("column Family:"4 new String(CellUtil.cloneFamily (cell))-4 ""); 
System.out.println ("row Name:'* new String (CellUtil.cloneQualifier (cell))* ""); 


System.out.println ("value:"4 new String (CellUtil.cloneValue (cell))-* ""); 











@ modifyData(String tableName. String row. String column), 
修改 表 tableName, 即 修改 行 row( 可 以 用 学 生 姓 名 S. Name 表示 )、 列 column 指定 的 
单元 格 的 数据 。 
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public static void modifyData (String tableName,String row,String column,String val)throws 
IOException( 

init(); 

Table table= connection.getTable (TableName .valueOf (tableName) ) ; 

Put put= new Put (row.getBytes ()); 

put.addColumn (column.getBytes () ,nu11, val.getBytes ()) ; 

table.put (put); 

table.close(); 


close(); 











© deleteRow(String tableName. String row) 。 
删除 表 tableName 中 row 指定 的 行 的 记录 。 





public static void deleteRow (String tableName,String row)throws IOException{ 
init(); 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Delete delete- new Delete (row.getBytes ()); 
// 删 除 指定 列 族 
//delete.addFamily (Bytes.toBytes (colFamily)); 
// 删 除 指定 列 
//delete.addColumn (Bytes .toBytes (colFamily),Bytes.toBytes (col)); 
table.delete (delete); 
table.close(); 
close(); 











A.4 实验 四 : NoSQL 和 关系 数据 库 的 操作 比较 


本 实验 对 应 第 6 章 的 内 容 。 
A.4.1 实验 目的 


COD 理解 4 种 数据 库 (MySQL、 HBase, Redis 和 MongoDB) 的 概念 及 不 同 点 。 
(2) 熟练 使 用 4 种 数据 库 操 作 常 用 的 Shell 命令 。 
(3) 熟悉 4 种 数据 库 操作 常用 的 Java API 


A.4.2 实验 平台 


(1) 操作 系统 : Linux( 建 议 Ubuntu 16. 04)。 
(2) Hadoop 版 本 : 2.7.1。 

(3) MySQL 版 本 : 5.7. 15。 

(4) HBase 版 本 : 1.1.2。 

(5) Redis 版 本 : 3.0.6。 


{ma 
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(6) MongoDB 版 本 : 3. 2. 6。 
(7) JDK 版 本 : 1.7 或 以 上 版 本 。 
(8) Java IDE: Eclipse。 


A.4.3 实验 步骤 
1. MySQL 数据 库 操 作 


Student 表 如 表 A-4 BAR 。 


表 A-4 Student X 











Name English Math Computer 
zhangsan 69 86 17 
lisi 55 100 88 














CD 根据 上 面 给 出 的 Student 表 , 在 MySQL 数据 库 中 完成 如 下 操作 。 


(D 在 MySQL 中 创建 Student 表 , 并 录入 数据 。 
创建 Student 表 的 SQL 语句 如 下 : 





create table student ( 
name varchar (30) not null, 
English tinyint unsigned not null, 
Math tinyint unsigned not null, 
Computer tinyint unsigned not null 
E 





向 Student 表 中 插入 两 条 记录 的 SQL 语句 如 下 : 





insert into student values ("zhangsan", 69,86, 77); 


insert into student values ("lisi", 55,100, 88); 








Q 用 SQL 语句 输出 Student 表 中 的 所 有 记录 。 
输出 Student 表 中 的 所 有 记录 的 SQL 语句 如 下 : 





select * from student; 








E38 SQL 语句 执行 后 的 结果 截图 如 图 A-1 所 示 。 


图 A-1 结果 截图 (1) 








@ 查询 zhangsan 的 Computer 成 绩 。 


查询 zhangsan 的 Computer 成 绩 的 SQL 语句 如 下 : 
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select name , Computer from student where name- "zhangsan"; 








述 语句 执行 后 的 结果 截图 如 图 A-2 所 示 。 


图 A-2 结果 截图 (2) 


@ 修改 lisi 的 Math 成 绩 , 改 为 95 。 


修改 lisi 的 Math 成 绩 的 SQL 语句 如 下 : 








update student set Math- 95 where name- "lisi"; 








E38 SQL 语句 执行 结果 截图 如 图 A-3 所 示 。 





(2) 根据 上 面 已 经 设计 出 的 Student 表 , 使 用 MySQL 


操作 。 


图 A-3 结果 截图 (3) 


CD 向 Student 表 中 添加 如 下 所 示 的 一 条 记录 


的 Java 客户 端 编 程 实现 以 下 





scofield 





45 





100 











向 Student X ifs Jl 


述 记 录 的 Java 代码 如 下 : 





import java.sql.* ; 
public class mysql test ( 


pe 
* Q param args 
seyn 

//JDBC DRIVER and DB 





static final String DRIVER- "com.mysql.jdbc.Driver"; 
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static final String DB- "jdbc:mysq] : //1ocalhost/test"; 
//Database auth 

static final String USER- "root"; 

static final String PASSWD- "root"; 


public static void main(String[] args) ( 
//TODO Auto- generated method stub 
Connection conn- null; 
Statement stmt-null; 
try ( 
// 加 载 驱动 程序 
Class.forName (DRIVER); 
System.out.println ("Connecting to a selected database"); 
// 打 开 一 个 连接 
conn- DriverManager.getConnection (DB, USER, PASSWD); 
// 执 行 一 个 查询 
stmt- conn.createStatement () ; 
String sql- "insert into student values ('scofield',45,89,100)"; 
stmt.executeUpdate (sql); 
System.out.println("Inserting records into the table successfully! 
) catch (ClassNotFoundException e) ( 
//TODO Auto- generated catch block 
e.printStackTrace(); 
Jcatch (SQLException e) { 
//TODO Auto- generated catch block 
e.printStackTrace(); 
)finally 
t 








if(stmt!-null) 
try ( 
stmt.close(); 
) catch(SQLException e) ( 
//TODO Auto- generated catch block 
e.printStackTrace(); 
} 
if (conn!-null) 
try { 
conn.close (); 
} catch (SQLException e) { 
//TODO Auto- generated catch block 
e.printStackTrace () ; 
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© 获取 scofield 的 English 成 绩 信息 。 
获取 scofield 的 English 成 绩 信 息 的 Java 代码 如 下 : 








import java.sql.* ; 
public class mysql qurty ( 


px 

* Qparam args 
wg 

//JDBC DRIVER and DB 

static final String DRIVER- "com.mysql.jdbc.Driver"; 

static final String DB= "jdbc:mysql://localhost/test"; 

//Database auth 

static final String USER- "root"; 

static final String PASSWD- "root"; 


public static void main(String[] args) ( 
//'TODO Auto- generated method stub 
Connection conn-null; 
Statement stmt-null; 
ResultSet rs-null; 
try ( 
// 加 载 驱动 程序 
Class.forName (DRIVER); 
System.out.println ("Connecting to a selected database… ") 7 
// 打 开 一 个 连接 
conn= DriverManager.getConnection (DB, USER, PASSWD); 
// 执 行 一 个 查询 
stmt= conn.createStatement () ; 
String sql= "select name,English from student where name= 'scofield' "; 
// 获 得 结果 集 
rs-stmt.executeQuery (sql); 
System.out.println "name" "\t\t"+ "English"); 
while (rs.next()) 
t 
System.out.print (rs.getString (1)+"\t\t"); 
System.out.println (rs.getInt (2)); 
} 
} catch (ClassNotFoundException e) { 
//TODO Auto- generated catch block 
e.printStackTrace (); 
}catch (SQLException e) ( 
///TODO Auto- generated catch block 
e.printStackTrace () ; 
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)finally 
t 
if(rs!-null) 
try ( 
rs.close(); 
} catch (SQLException el) ( 
//TODO Auto- generated catch block 
el.printStackTrace(); 
} 
if(stmt!-null) 
try { 
stmt.close(); 
} catch (SQLException e) ( 
//'TODO Auto- generated catch block 
e.printStackTrace|(); 
) 
if(conn!-null) 
try { 
conn.close(); 
} catch (SQLException e) ( 
//TODO Auto- generated catch block 


e.printStackTrace|(); 











2. HBase 数据 库 操作 


Student 表 如 表 A-5 所 示 。 
表 A-5 Student 表 














score 
name 
English Math Computer 
zhangsan 69 86 77 
lisi 55 100 88 














CD 根据 上 面 给 出 的 Student 表 的 信息 ,执行 如 下 操作 。 
(D 用 HBase Shell 命令 创建 学 生 表 Student, 
创建 Student 表 的 命令 如 下 : 





create 'student','score' 
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向 Student 表 中 插入 上 面 表格 数据 的 命令 如 下 : 








put 'student', 'zhangsan', 'score:English', '69' 





put 'student', 'zhangsan', 'score:Math', '86' 

put 'student', 'zhangsan', 'score:Computer', '77' 
put 'student', 'lisi','score:English', '55' 

put 'student', 'lisi','score:Math', '100' 


put 'student','lisi','score:Computer', '88" 











上 述 命令 执行 结果 截图 如 图 A-4 所 示 


hbase(main):018:0» cre 'student' ,'score' 
© row(s) in 2 


=> Hbase::Table 
hbase(main):019: , t','zhangsan' 
© row(s) in © 


hbase(main) put 'student' ,'zhangsan' 
© row(s) in 0.0070 seconds 


hbase(main):021:0» put 'student','zhangsan Computer 
© row(s) in 0.00 


hbase(main): tudent','lisi 
9 row(s) tn seconds 


Sti English 
hbase(main) put 'student 
© row(s) in 0.0080 seconds 


hbase(main) :0» put 'student',' Computer ' , 
© row(s) in seconds 





图 A-4 结果 截图 (4) 


© 用 scan 指令 浏览 Student 表 的 相关 信息 
用 scan 指令 浏览 Student 表 相 关 信 息 的 命令 如 下 : 








scan 'student' 








student 
OLUMN+CELL 
[m ore:Computer, time 
column-score:English, tim 
column 





图 A-5 结果 截图 (5) 


© 查询 zhangsan 的 Computer 成 绩 
查询 zhangsan 的 Computer 成 绩 的 命令 如 下 : 














get 'student', 'zhangsan', 'score:Computer' 
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上 述 命 令 执 行 结果 截图 如 图 A-6 所 示 。 


> get 'student','zhangsan','score:Computer 
CELL 


omputer timestamp-1462605105787, value-77 
in 0.0610 ds 





图 A-6 结果 截图 (6) 


GD 修改 lisi 的 Math 成 绩 , 改 为 95。 
修改 lisi 的 Math 成 绩 的 命令 如 下 : 





put 'student','lisi','score:Math','95" 





上 述 命令 的 执行 结果 截图 如 图 A-7 所 示 。 


hbase(main):003:0> put 'student' 
© row(s) in 0.1020 seconds 





hbase(main):004:0» get 'student','lisi','score:Math 
CELL 
timestamp-1462605841339, value-95 
6.0090 seconds 





图 A-7 结果 截图 (7) 





(2) 根据 上 面 已 经 设计 出 的 Student 表 , 用 HBase API 编程 
CD 添加 数据 : English 为 45; Math 为 89;Computer 为 100。 


实现 以 下 操作 。 





scofield 45 89 100 











网 添加 数据 的 Java 代码 如 下 : 








import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.TableName; 

import org.apache.hadoop.hbase.client.Admin; 

import org.apache.hadoop.hbase.client.Connection; 

import org.apache.hadoop.hbase.client.ConnectionFactory; 
import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.client.Table; 


public class hbase insert ( 


pex 
* Q param args 
*/ 
public static Configuration configuration; 
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public static Connection connection; 
public static Admin admin; 
public static void main(String[] args) ( 
//TODO Auto- generated method stub 
configuration- HBaseConfiguration.create(); 
configuration.set ("hbase.rootdir","hdfs://localhost:9000/hbase") ; 
try{ 
connection- ConnectionFactory.createConnection (configuration); 
admin- connection.getAdmin(); 
)catch (IOException e)í 
e.printStackTrace(); 
H 
try ( 
insertRow ("student", "scofield", "score", "English", "45"); 
insertRow ("student", "scofield", "score", "Math","89"); 
insertRow ("student", "scofield", "score", "Computer", "100"); 
) catch (IOException e) ( 
//TODO Auto- generated catch block 
e.printStackTrace(); 
} 
close () 7 
} 
public static void insertRow (String tableName, String rowKey, String 
colFamily, String col,String val) throws IOException { 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Put put-new Put (rowKey.getBytes ()); 
put.addColumn (colFamily.getBytes(), col.getBytes(), val.getBytes()); 
table.put (put); 
table.close(); 
) 
public static void close (){ 
try 
if(admin !-null)( 
admin.close(); 
} 
if (null != connection) { 
connection.close(); 
} 
}catch (IOException e) { 


e.printStackTrace (); 
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执行 完 上 述 代码 以 后 ,可 以 用 scan 命令 输出 数据 库 数 据 , 以 检验 是 否 插入 成 功 ,执行 结 
果 截 图 如 图 A-8 所 示 。 











ore:Computer, 
lish, 
th, 
'omp 


ore:English, 


0.0396 





图 A-8 结果 截图 (8) 


@ 获取 scofield 的 English 成 绩 信 息 。 
Java 代码 如 下 : 





import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.hbase.Cell; 

import org.apache.hadoop.hbase.CellUtil; 

import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.TableName; 

import org.apache.hadoop.hbase.client.Admin; 
import org.apache.hadoop.hbase.client.Connection; 
import org.apache.hadoop.hbase.client.ConnectionFactory; 
import org.apache.hadoop.hbase.client.Get; 

import org.apache.hadoop.hbase.client.Put; 

import org.apache.hadoop.hbase.client.Result; 
import org.apache.hadoop.hbase.client.Table; 


public class hbase query ( 


Je 
* Q param args 
*/ 
public static Configuration configuration; 
public static Connection connection; 
public static Admin admin; 
public static void main(String[] args) { 
/ /TODO Auto- generated method stub 
configuration- HBaseConfiguration.create(); 
configuration.set ("hbase.rootdir","hdfs://localhost:9000/hbase") ; 
try{ 
connection=ConnectionFactory.createConnection (configuration); 
admin=connection.getAdmin () ; 
Jcatch (IOException e) { 
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e.printStackTrace () ; 
} 
try { 
getData ("student", "scofield", "score", English"); 
) catch (IOException e) { 
//'TODO Auto- generated catch block 
e.printStackTrace (); 
} 
close(); 
) 
public static void getData (String tableName, String rowKey, String 
colFamily,String col)throws IOException( 
Table table- connection.getTable (TableName.valueOf (tableName)); 
Get get- new Get (rowKey.getBytes ()); 
get .addColumn (colFamily.getBytes (),col.getBytes ()); 
Result result-table.get (get); 
showCell (result); 
table.close(); 
} 
public static void showCell (Result result){ 
Cell[] cells- result.rawCells(); 
for (Cell cell:cells)( 
System.out.println ("RowName:"- new String(CellUtil.cloneRow( 
cell))t""); 
System.out.println ("Timetamp:'4 cell.getTimestamp ()* ""); 
System.out.println ("column Family:'"4new String(CellUtil. 
cloneFamily (cell))-* ""); 
System.out.println ("row Name:'4 new String (CellUtil. 
cloneQualifier (cell))*""); 
System.out.println ("value:"+ new String (CellUtil.cloneValue 
(ce11))* "); 


) 
public static void close (){ 
try{ 
if (admin !-null)( 
admin.close(); 
} 
if (null != connection) { 
connection.close (); 
} 
}catch (IOException e) { 


e.printStackTrace (); 
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可 以 在 Eclipse 中 执行 上 述 代码 ,会 在 控制 台中 输出 如 下 信息 : 





RowName:scofield 
Timetamp: 1462607153858 
column Family:score 

row Name:English 
value:45 











3. Redis 数据 库 操 作 
Student 键 值 对 如 下 : 





zhangsan: ( 
English: 69 
Math: 86 
Computer: 77 
} 
lisi:{ 
English: 55 
Math: 100 
Computer: 88 











(1) 根据 上 面 给 出 的 键 值 对 ,完成 如 下 操作 。 

CD 用 Redis 的 哈 希 结构 设计 出 学 生 表 Student ( 键 值 可 以 用 student. zhangsan 和 
student. lisi 来 表示 两 个 键 值 属 于 同一 个 表 ) 。 

插入 上 述 键 值 对 的 命令 如 下 : 





hset student.zhangsan English 69 
hset student.zhangsan Math 86 
hset student.zhangsan Computer 77 
hset student.lisi English 55 

hset student.lisi Math 100 

hset student.lisi Computer 88 











© 用 hgetall 命令 分 别 输出 zhangsan 和 lisi 的 成 绩 信息 。 
查询 zhangsan 成 绩 信息 的 命令 如 下 : 





hgetall student.zhangsan 











执行 该 命令 的 结果 截图 如 图 A-9 所 示 。 


图 A-9 结果 截图 (9) 
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查询 lisi 成 绩 信 息 的 命令 如 下 : 














hgetall student.lisi 








执行 该 命令 的 结果 截图 如 图 A-10 所 示 。 


图 A-10 结果 截图 (10) 


© 用 hget 命令 查询 zhangsan 的 Computer 成 绩 。 


查询 zhangsan 的 Computer 成 绩 的 命令 如 下 : 








hget student.zhangsan Computer 





执行 该 命令 的 结果 截图 如 图 A-11 所 示 o 


图 A-11 结果 截图 (11) 


@ 修改 lisi 的 Math 成 绩 , 改 为 95。 
修改 lisi 的 Math 成 绩 的 命令 如 下 : 








hset student.lisi Math 95 





执行 该 命令 的 结果 截图 如 图 A-12 PER 


图 A-12 结果 截图 (12) 


(2) 根据 上 面 已 经 设计 出 的 学 生 表 Student, 用 Redis 的 Java 客户 端 编程 (jedis) ,实现 


如 下 操作 。 
CD 添加 数据 : English 为 45;Math 为 89;Computer 为 100, 


scofield: { 
English: 45 
Math: 89 
Computer: 100 
} 


完成 添加 数据 操作 的 Java 代码 如 下 : 
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import java.util.Map; 
import redis.clients.jedis.Jedis; 


public class jedis test ( 


px 
* Q param args 
*/ 
public static void main(String[] args) ( 
//TODO Auto- generated method stub 
Jedis jedis- new Jedis ("localhost"); 
jedis.hset ("student.scofield", "English","45"); 
jedis.hset ("student.scofield", "Math","89"); 
jedis.hset ("student.scofield", "Computer","100"); 
Map« String, String» value= jedis.hgetAll("student.scofield"); 
for (Map.Entry« String, String»entry:value.entrySet ()) 
1 
System.out.println (entry.getKey ()* ":"* entry.getValue()); 














在 Eclipse 中 执行 上 述 代 码 后 ,在 Eclipse 控制 台 输出 的 信息 n— 
截图 如 图 A-13 所 示 。 Mas : 
© 获取 scofield 的 English 成 绩 信息 。 puse 


获取 scofield 的 English 成 绩 信息 的 Java 代码 如 下 : 





图 A-13 信息 截图 (1) 





import java.util.Map; 
import redis.clients.jedis.Jedis; 


public class jedis query ( 


pe 
* ( param args 
*/ 
public static void main(String[] args) { 
//TODO Auto- generated method stub 
Jedis jedis-new Jedis ("localhost"); 
String value- jedis.hget ("student.scofield", "English"); 


System.out.println("scofield's English score is: "*value); 











附录 A， 大 数据 课程 实验 答案 “1 1345 


在 Eclipse 中 执行 上 述 代码 后 ,在 Eclipse 控制 台 输 出 的 信息 截图 如 图 A-14 所 示 。 


scofield's English scoreis: 45 


图 A-14 信息 截图 (2) 


4. MongoDB 数据 库 操 作 
Student 文档 如 下 : 








"name": "zhangsan", 

"score": ( 
"English": 69, 
"Math": 86, 
"Computer": 77 


"name": "lisi", 


"score": ( 
"English": 55, 
"Math": 100, 


"Computer": 88 








CD 根据 上 面 给 出 的 文档 ,完成 如 下 操作 。 
(D 用 MongoDB Shell 设计 出 student 集合 。 
首先 切换 到 student 集合 ,命令 如 下 : 





use student 





然后 定义 包含 上 述 两 个 文档 的 数组 ,命令 如 下 : 





var stus- [ 
("name" : "zhangsan", "scores": ("English":69, "Math":86, "Computer":77)], 
["name" : "isi", "score": ["English":55, "Math":100, "Computer":88]) ] 





最 后 调用 如 下 命令 插入 数据 库 : 








db.student.insert (stus) 








上 述 命令 及 其 执行 结果 的 截图 如 图 A-15 所 示 。 
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图 A-15 结果 截图 (13) 


© 用 findO 〇 方法 输出 两 个 学 生 的 信息 。 
用 find() 方 法 输出 两 个 学 生 信息 的 命令 如 下 : 








db.student.find().pretty() 











上 述 命令 及 其 执行 结果 的 截图 如 图 A-16 所 示 。 





图 A-16 结果 截图 (14) 


© H find 函数 查询 zhangsan 的 所 有 成 绩 (只 显示 score 列 )。 
用 find 函数 查询 zhangsan 的 所 有 成 绩 的 命令 如 下 : 





db.student.find(("name":"zhangsan"], {" id":0,"name":0}) 











上 述 命令 及 其 执行 结果 的 截图 如 图 A-17 所 示 。 


图 A-17 结果 截图 (15) 


GD 修改 lisi 的 Math 成 绩 , 改 为 95。 
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修改 lisi 的 Math 成 绩 的 命令 如 下 : 








db.student.update (("name":"lisi"), ("$set": 





score.Math":95]]) 








上 述 命令 及 其 执行 结果 的 截图 如 图 A-18 所 示 。 


图 A-18 结果 截图 (16) 


(2) 根据 上 面 已 经 设计 出 的 Student 集合 ,用 MongoDB 的 Java 客户 端 编程 ,实现 如 下 
操作 。 


CD 添加 数据 : English 为 45; Math 为 89;Computer 为 100。 
与 上 述 数据 对 应 的 文档 形式 如 下 : 





, 





"English": 45, 
"Math": 89 
"Computer": 100 
} 





实现 上 述 添 加 数据 操作 的 Java 代码 如 下 : 








import java.util.ArrayList; 
import java.util.List; 


import org.bson.Document; 

import com.mongodb.MongoClient; 

import com.mongodb.client.MongoCollection; 
import com.mongodb.client.MongoDatabase; 


public class mongo insert { 


/x 
* @param args 
*/ 
public static void main(String[] args) ( 
/ /TODO Auto- generated method stub 
// 实 例 化 一 个 mongo 客户 端 


MongoClient mongoClient-new MongoClient ("localhost", 27017) ; 
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// 实 例 化 一 个 mongo 数据 库 

MongoDatabase mongoDatabase-mongoClient.getDatabase ("student") ; 
// 获 取 数 据 库 中 的 某 个 集合 

MongoCollection« Document» collection-mongoDatabase.getCollection 
("student"); 


[SAVE — I 3CPS PIC T T XR 


Document document- new Document ("name' 





scofield"). 
append ("score", new Document ("English",45). 
append ("Math", 89). 
append ("Computer", 100)); 
List« Document» documents- new ArrayList« Document» (); 
documents .add (document) ; 
// 将 文档 插入 集合 中 
collection.insertMany (documents) ; 


System.out.println ("文档 插入 成 功 "); 











可 以 使 用 find() 方 法 
其 执行 结果 截图 如 图 A-19 所 示 
> db.student.find().pretty() 


ObjectId("572daa49ac079cb68a23068e"), 
zhangsan"， 


ObjectId("572db5296381924c1aacc9e4"), 


© 获取 scofield MA RSR 
Java 代码 如 下 : 





AA 
fip 


及 





import java.util.ArrayList; 
import java.util.List; 
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import org.bson.Document; 

import com.mongodb.MongoClient; 

import com.mongodb.client.MongoCollection; 

import com.mongodb.client.MongoCursor; 

import com.mongodb.client.MongoDatabase; 

import com.mongodb.client.model.Filters; 

import static com.mongodb.client.model.Filters.eq; 
public class mongo query { 


p 
* Q param args 
*/ 
public static void main(String[] args) ( 
//'TODO Auto- generated method stub 
// 实 例 化 一 个 mongo 客户 端 
MongoClient mongoClient- new MongoClient ("localhost",27017); 
// 实 例 化 一 个 mongo 数据 库 
MongoDatabase mongoDatabase=mongoClient .getDatabase ("student"); 
// 获 取 数 据 库 中 的 某 个 集合 
MongoCollection« Document» collection-mongoDatabase.getCollection 
("student"); 
// 进 行 数 据 查找 ,查询 条 件 为 name= scofiela, 对 获取 的 结果 集 只 显示 score 这 个 域 
MongoCursor« Document» cursor- collection.find (new Document ("name", 
"scofield")). 
projection (new Document ("score",1).append(" id", 0)).iterator(); 
while (cursor.hasNext () ) 


System.out.println (cursor.next ().toJson()); 











A.5.1 实验 目的 


(1) 通过 实验 掌握 基本 的 MapReduce 编程 方法 。 
(2) 掌握 用 MapReduce 解决 一 些 常 见 的 数据 处 理 问题 ,包括 数据 去 重 、 数 据 排序 和 数 
据 挖掘 等 。 


A.5.2 实验 平台 


(1) 操作 系统 : Linux( 建 议 Ubuntu 16. 04) 。 
(2) Hadoop 版 本 : 2.7.1。 
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A.5.3 实验 步骤 
1 编程 实现 文件 合并 和 去 重 操作 


对 于 两 个 输入 文件 , 即 文件 A 和 文件 B, 编 写 MapReduce 程序 ,对 两 个 文件 进行 合并 ， 
并 剔除 其 中 重复 的 内 容 ,得 到 一 个 新 的 输出 文件 C。 下 面 是 输入 文件 和 输出 文件 的 一 个 样 
例 供 参考 。 

输入 文件 A 的 样 例如 下 : 








20170101 
20170102 
20170103 
20170104 
20170105 
20170106 


X NK X Ww X 





输入 文件 B 的 样 例如 下 : 





20170101 y 
20170102 y 
20170103 x 
20170104 g 
20170105 y 





根据 输入 文件 A 和 B 合并 得 到 的 输出 文件 C 的 样 例如 下 : 





20170101 
20170101 
20170102 
20170103 
20170104 
20170104 
20170105 
20170105 
20170106 


NWNIE NG OX XX ON 





实现 上 述 操作 的 Java 代码 如 下 : 





package com.Merge; 


import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 
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import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.1lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class Merge ( 


Lr 
* Q6 param args 
* 对 R`B 两 个 文件 进行 合并 ,并 剔除 其 中 重复 的 内 容 , 得 到 一 个 新 的 输出 文件 C 
*/ 
// 重 载 map 函数 ,直接 将 输入 中 的 value 复制 到 输出 数据 的 key 上 
public static class Map extends Mapper< Object, Text, Text, Text> { 
private static Text text- new Text (); 
public void map(Object key, Text value, Context context) throws 
IOException, InterruptedException( 
text- value; 


context.write(text, new Text ("")); 


// 重 载 reduce 函数 ,直接 将 输入 中 的 key 复制 到 输出 数据 的 key 上 

public static class Reduce extends Reducer< Text, Text, Text, Text» ( 
public void reduce (Text key, Iterable« Text» values, Context context) 
throws IOException, InterruptedException( 


context.write (key, new Text ("")); 


public static void main(String[] args) throws Exception( 


//TODO Auto- generated method stub 
Configuration conf-new Configuration (); 
conf.set ("£s.default.name", "hdfs://localhost: 9000"); 
String[] otherArgs-new String[]("input","output"); /* 直接 设置 输入 参数 / 
if(otherArgs.length !-2) ( 
System.err.println("Usage: wordcount« in» « out» "); 
System.exit (2); 


} 
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Job job= Job.getInstance (conf, "Merge and duplicate removal"); 
job.setJarByClass (Merge.class); 

job.setMapperClass (Map.class); 

job.setCombinerClass (Reduce.class); 

job.setReducerClass (Reduce.class); 

job.setOutputKeyClass (Text class); 

job.setOutputValueClass (Text .class); 
FileInputFormat.addInputPath (job, new Path (otherArgs[0])); 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); 
System.exit (job.waitForCompletion (true) ? 0 : 1); 











2 编写 程序 实现 对 输入 文件 的 排序 


现在 有 多 个 输入 文件 ,每 个 文件 中 的 每 行内 容 均 为 一 个 整数 。 要 求 读 取 所 有 文件 中 的 
整数 ,进行 升序 排序 后 ,输出 到 一 个 新 的 文件 中 ,输出 的 数据 格式 为 每 行 两 个 整数 ,第 一 个 数 
字 为 第 二 个 整数 的 排序 位 次 ,第 二 个 整数 为 原 待 排 列 的 整数 。 下 面 是 输入 文件 和 输出 文件 
的 一 个 样 例 供 参考 。 

输入 文件 1 的 样 例如 下 : 





33 
37 
12 


40 











输入 文件 2 的 样 例如 下 : 








输入 文件 3 的 样 例如 下 : 





1 
45 
25 











根据 输入 文件 1.2 和 3 得 到 的 输出 文件 如 下 : 
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10 40 
11 45 


39 





实现 上 述 操作 的 Java 代码 如 下 : 








package com.MergeSort; 


import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Partitioner; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class MergeSort { 


Lr 
* Q param args 
* 输入 多 个 文件 ,每 个 文件 中 的 每 行内 容 均 为 一 个 整数 
* 输出 到 一 个 新 的 文件 中 ,输出 的 数据 格式 为 每 行 两 个 整数 ,第 一 个 数字 为 第 二 个 整数 的 排 
序 位 次 ,第 二 个 整数 为 原 待 排列 的 整数 
*/ 
/ [map 函数 读 取 输入 中 的 value, 将 其 转化 成 Intwritable 类 型 ,最 后 作为 输出 key 
public static class Map extends Mapper«Object, Text, IntWritable, 
IntWritable» ( 


private static IntWritable data-new IntWritable(); 
public void map (Object key, Text value, Context context) throws 
IOException, InterruptedExceptioni 
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String text-value.toString(); 
data.set (Integer.parseInt (text)); 
context.write (data, new IntWritable(1)); 


/ [reduce 函数 将 map 输 入 的 key 复制 到 输出 的 value 上 ,然后 根据 输入 的 value- list 中 元 素 
的 个 数 决定 key 的 输出 次 数 , 定 义 一 个 全 局 变量 line num 来 代表 key 的 位 次 
public static class Reduce extends Reducer< IntWritable, IntWritable, 
IntWritable, IntWritable» ( 
private static IntWritable line num-new IntWritable (1); 


public void reduce (IntWritable key, Iterable« IntWritable» values, 
Context context) throws IOException, InterruptedException( 
for(IntWritable val : values) { 
context.write (line num, key); 
line num-new IntWritable (line num.get ()* 1); 


// 自 定义 Partition 函数 ,此 函数 根据 输入 数据 的 最 大 值 和 MapReduce 框架 中 Partition 的 数 
量 获取 将 输入 数据 按照 大 小 分 块 的 边界 ,然后 根据 输入 数值 和 边界 的 关系 返回 对 应 的 
Partiton ID 

public static class Partition extends Partitioner< IntWritable, 

IntWritable» ( 

public int getPartition(IntWritable key, IntWritable value, int num - 
Partition)í 
int Maxnuniber- 65223; //int 型 的 最 大 数值 
int bound-Maxnumber/num Partitiont 1; 
int keynumber- key.get (); 
for(int i-0; i<num Partition; i++){ 
if(keynumber«bound * (i*1) && keynumber»- bound * i){ 


return i; 


return-1; 


public static void main(String[] args) throws Exception( 
//TODO Auto- generated method stub 
Configuration conf-new Configuration (); 
con£.set ("£s.default.name", "hdfs://1ocalhost:9000") ; 
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String[] otherArgs-new String[]("input","output"); /x 直接 设置 输入 参数 * / 
if(otherArgs.length !=2) ( 
System.err.println("Usage: wordcount« in» « out» "); 
System.exit (2); 
} 
Job job= Job.getInstance (conf, "Merge andsort"); 
job.setJarByClass (MergeSort.class); 
job.setMapperClass (Map.class); 
job.setReducerClass (Reduce.class); 
job.setPartitionerClass (Partition.class); 
job.setOutputKeyClass (IntWritable.class); 
job.setOutputValueClass (IntWritable.class); 
FileInputFormat.addInputPath (job, new Path (otherArgs[0])); 
FileOutputFormat.setOutputPath (job, new Path(otherArgs[1])); 
System.exit(job.waitForCompletion (true) ? 0 : 1); 








3. 对 给 定 的 表格 进行 信息 挖掘 
下 面 给 出 一 个 child-parent 的 表格 ,要求 挖掘 其 中 的 父子 辈 关 系 ,给 出 祖 孙 辈 关 系 的 





表格 。 

输入 文件 内 容 如 下 : 
child parent 
Steven Lucy 
Steven Jack 
Jone Lucy 
Jone Jack 
Lucy Mary 
Lucy Frank 
Jack Alice 
Jack Jesse 
David Alice 
David Jesse 
Philip David 
Philip Alma 
Mark David 
Mark Alma 











输出 文件 内 容 如 下 : 
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grandchild grandparent 
Steven Alice 
Steven Jesse 
Jone Alice 
Jone Jesse 
Steven Mary 
Steven Frank 
Jone Mary 
Jone Frank 
Philip Alice 
Philip Jesse 
Mark Alice 
Mark Jesse 





实现 上 述 操作 的 Java 代码 如 下 : 





package com.simple data mining; 


import java.io.IOException; 
import java.util. * ; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class simple data mining ( 
public static int time- 0; 


pe 
* Q param args 
* 输入 一 个 child-parent 的 表格 
* 输出 一 个 体现 grandchild- grandparent 关系 的 表格 
*/ 
/ Map 将 输入 文件 按照 空格 分 隔 成 child 和 parent, 然 后 正 序 输出 一 次 作为 右 表 , 反 序 输出 一 
次 作为 左 表 ,需要 注意 的 是 在 输出 的 value 中 必须 加 上 左右 表 区 别 标志 
public static class Map extends Mapper<Object, Text, Text,Text>{ 
public void map (Object key, Text value, Context context) throws 
IOException, InterruptedException( 
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String child name=new String(); 
String parent name- new String(); 
String relation type-new String(); 
String line-value.toString(); 
int i-0; 
while(line.charAt(i) !-' '){ 
itt; 
} 
String[] values= (line.substring(0,i),line.substring(i*t1)); 
if (values [0].compareTo ("child") !=0){ 
child name- values [0]; 
parent name- values [1]; 
relation type-"1"; // 左 右 表 区 分 标志 
context.write (new Text (values[1]), new 
Text(relation type+ "+ "child namet"* "parent name)); 
// 左 表 
relation type-"2"; 
context.write (new Text (values[0]), new 
Text(relation type+ "+ "child name" "parent name)); 


// 右 表 


public static class Reduce extends Reducer< Text, Text, Text, Text» { 
public void reduce (Text key, Iterable < Text» values, Context context) throws 
IOException, InterruptedException( 
if(time--0)( ”// 输 出 表 头 
context.write (new Text ("grand child"), new 
Text ("grand parent")); 
timett; 
i 
int grand child num-0; 
String grand child[]- new String[10]; 
int grand parent num-0; 
String grand parent[]-new String[10]; 
Iterator ite-values.iterator(); 
while (ite.hasNext())( 
String record- ite.next () .toString(); 
int len= record.length():; 
int i-2; 
if(len--0) continue; 
char relation type= record.charAt (0); 
String child name- new String(); 








大 数据 基础 编程 、 实 验 和 案例 教程 





String parent name-new String(); 


// 获 取 value- list 中 value 的 child 


while(record.charAt(i) !='+'){ 
child name-child name* record.charAt (i); 
itt; 

} 

i-itl; 

// 获 取 value- list 中 value 的 parent 

while (i< len){ 
parent name-parent name* record.charAt (i); 
itt; 

} 

// 左 表 , 取 出 child 放 入 grand child 

if (relation type== '1')( 
grand child[grand child num]- child name; 
grand child numł +; 

) 

elsef// 右 表 , 取 出 parent 放 人 grand parent 
grand parent [grand parent num]-parent name; 
grand parent numt*; 


if (grand parent num !=0 && grand child num !=0){ 
for (int m-0;m«grand child num;m*-*)( 
for (int n=0;n< grand parent num;n**)( 
context.write (new Text (grand child[m]), new 
Text (grand parent[n])); 
// 输 出 结果 


} 
public static void main(String[] args) throws Exception{ 
//TODO Auto- generated method stub 
Configuration conf-new Configuration (); 
conf.set ("£s.default.name", "hdfs://1localhost:9000"); 
String[] otherArgs-new String[]("input", "output"; /* 直接 设置 输入 参数 / 
if(otherArgs.length !-2) ( 
System.err.println("Usage: wordcount« in» « out» "); 
System.exit (2); 


H 
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Job job-Job.getInstance (conf, "Single table join"); 
job.setJarByClass (simple data mining.class); 
job.setMapperClass (Map.class); 

job.setReducerClass (Reduce.class); 

job.setOutputKeyClass (Text.class); 

job.setOutputValueClass (Text.class); 
FileInputFormat.addInputPath (job, new Path (otherArgs[0])); 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); 
System.exit (job.waitForCompletion(true) ? 0 : 1); 








[附录 B 
Linux 系统 中 的 MySQL 安装 及 常用 操作 


MySQL 是 一 个 关系 数据 库 管理 系统 ,由 瑞典 MySQL AB 公司 开发 ,目前 属于 Oracle 旗下 
的 产品 。MySQL 是 最 流行 的 关系 数据 库 管理 系统 ,在 Web 应 用 方面 , MySQL 是 最 好 的 关系 
数据 库 管 理 系统 (Relational Database Management System,RDBMS) 应 用 软件 之 一 。 


B.1 安装 MySQL 


1 执行 安装 命令 
在 安装 MySQL 之 前 ,需要 更 新 一 下 软件 源 以 获得 最 新 版 本 ,命令 如 下 : 





$sudo apt - get update 





然后 执行 如 下 命令 安装 MySQL: 











$sudo apt -get install mysql- server 





上 述 命令 会 安装 以 下 包 。 

(1) apparmor。 

(2) mysql-client-5.7。 

(3) mysql-common, 

(4) mysql-server, 

(5) mysql-server-5.7。 

(6) mysql-server-core-5. 7. 

因此 无 须 再 安装 mysql-client 等 。 安 装 过 程 会 提示 设置 MySQL 数据 库 root 用 户 的 密 
码 ,本 书 统一 设置 密码 为 hadoop ,设置 完成 后 等 待 自动 安装 即 可 。 


2 启动 MySQL 服务 


默认 情况 下 ,安装 完成 就 会 自动 启动 MySQL。 可 以 手动 关闭 MySQL 服务 ,然后 再 次 
启动 MySQL 服务 ,命令 如 下 : 





$service mysql stop 


$service mysql start 
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可 以 执行 如 下 命令 来 确认 是 否 启动 成 功 : 





$sudo netstat -tap | grep mysql 











如 图 B-1 Bras AR MySQL 节点 处 于 LISTEN 状态 , 则 表示 启动 成 功 。 


LISTEN 





3. 进入 MySQL. Shell 界面 


执行 如 下 命令 进入 MySQL Shell 界面 : 





$mysql -u root -p 











该 命令 执行 以 后 ,系统 会 提示 输入 MySQL 数据 库 的 root 用 户 的 密码 ,本 书 把 密码 统 
-设置 为 hadoop; 然 后 就 进入 了 mysql 二 命令 提示 符 状 态 ,如 图 B-2 所 示 。 


dblab@ 
Enter pa 


end with ; or | 


1 (Ubuntu) 


lear the current inp 





图 B-2 命令 提示 符 
在 mysql 二 命令 提示 符 之 后 ,就 可 以 输入 各 种 SQL 语句 ,对 MySQL 数据 库 进 行 操作 。 
4. 解决 利用 Sqoop 导入 MySQL. 出 现 的 中 文 乱码 问题 


当 使 用 Sqoop 工具 向 MySQL 数据 库 导 入 数据 时 ,可 能 会 出 现 中 文 乱 码 问题 ,原因 是 
character set server 默认 设置 是 latinl ,不 是 中 文 编码 。 要 查询 MySQL 数据 库 当 前 的 字 御 
编码 格式 ,可 以 使 用 如 下 命令 : 





mysql» show variables like'chart'; 





执行 该 命令 以 后 ,会 出 现 类 似 图 B-3 所 示 的 信息 。 
可 以 单个 设置 修改 编码 方式 ,比如 ,使 用 如 下 命令 : 





mysql> set character set server-utf8; 














但 是 ,通过 这 种 方式 设置 字符 编码 格式 ,重启 MySQL 服务 以 后 就 会 失效 。 因 此 ,建议 
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ow variables like "char 





图 B-3 执行 结果 
按照 如 下 方式 修改 编码 格式 。 


1) 修改 配置 文件 
在 Linux 系统 中 新 打开 一 个 
mysql.cnf 文件 ,命令 如 下 : 





使 用 vim 编辑 器 编辑 /etc/mysql/mysql.conf.d/ 





$vim /etc/mysql/mysql.conf.d/mysql.cnf 





注意 : 上 面 的 命令 是 在 Linux Shell 命令 提示 符 下 执行 的 ,不 是 在 mysql fa dion fT 
下 执行 ,一定 要 注 分 。 打 开 mysql. cnf 文件 以 后 ,请 在 [mysqld] 下 面 添加 一 行 character 
_set_server 一 utf8, 如 图 B-4 所 示 。 











图 B-4 增加 一 行 代码 


2) 重启 MySQL 服务 
在 Linux 终端 的 Shell 命令 提示 符 ( 不 是 mysql 二 命令 提示 符 ) 下 执行 如 下 命令 
MySQL 服务 : 








bui 





$service mysql restart 











3) 登录 MySQL 查看 当前 编码 格式 
重启 MySQL 服务 以 后 ,再 次 使 用 如 下 命令 查询 MySQL 数据 库 当 前 的 字符 编码 格式 : 











mysql» show variables like'char%'; 
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从 图 B-5 中 可 以 看 出 ,字符 编码 格式 已 经 修改 为 utf8。 
B.2 MySQL 常用 操作 


l 显示 数据 库 


可 以 在 mysql 二 命令 提示 符 下 输入 如 下 命令 显示 数据 库 : 





mysql> show databases; 


注意 : god 后 面 都 需要 跟 上 英文 的 分 号 “;” 

MySQL 安装 完 后 ,就 会 包含 两 个 数据 库 , 即 mysql 和 test。 数 据 库 mysql 非常 重要 , 它 
里 面 有 MySQL 的 系统 信息 ,我 们 修改 密码 和 新 增 用 户 ,实际 上 就 是 用 这 个 库 中 的 相关 表 进 
行 操作 。 


2 显示 数据 库 中 的 表 
对 每 个 数据 库 进行 操作 之 前 ,需要 使 用 use 命令 打开 该 数据 库 : 














mysql» use mysql; 





然后 可 以 使 用 如 下 命令 来 显示 数据 库 中 的 表 : 











mysql> show tables; 








3. 显示 数据 表 的 结构 
显示 数据 表 的 结构 可 以 采用 如 下 格式 的 命令 : 


describe 表 名 : 


4 查询 表 中 的 记录 














查询 表 中 的 记录 可 以 采用 如 下 格式 的 命令 : 
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select * from 表 名 ; 


例如 ,显示 数据 库 mysql 中 的 user 表 中 的 记录 ,可 以 使 用 如 下 命令 : 





mysql> select * from user; 











5. 创建 数据 库 
创建 数据 库 的 命令 格式 如 下 : 
create database 库 名 ; 


例如 ,创建 一 个 名 字 为 aaa 的 数据 库 , 命 令 如 下 : 





mysql» create database aaa; 











6 创建 表 
创建 一 个 新 表 时 ,可 以 采用 如 下 格式 的 命令 ， 


use RES: 

create table X 4 (字段 设 定 列表 ); 

例如 ,在 刚刚 创建 的 数据 库 aaa 中 建立 表 person, KPA id( 序 号 ,自动 增长 )、xm( 姓 
名 ) .xb( 性 别 ) 和 csny( 出 身 年 月 )4 个 字段 ,命令 如 下 : 





mysql» use aaa; 
mysql» create table person (id int(3) auto incrementnot null primary key, xm varchar (10) ,xb 


varchar (2) ,csny date); 





可 以 用 describe 命令 查看 建立 的 person 表 的 结构 ,命令 如 下 : 





mysql> describe person; 








执行 完 describe 命令 以 后 ,会 出 现 如 图 B-6 所 示 





mysql» describe per 


N 
varchar(180) | YES 


varchar(2) 
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7 增加 记录 


例如 ,可 以 执行 如 下 命令 向 person 表 中 增加 几 条 相关 记录 





mysql» insert into person values (null, ' 张 三 ', 'j *, '1997- 01- 02"); 
mysql» insert into person values (null, ' 李 四 ',' 女 ','1996- 12- 02") ; 





因为 在 创建 表 时 设置 了 id 自 增 , 因 此 无 须 插入 id 字段 ,用 null 代替 即 可 。 
可 用 select 命令 查询 person 表 的 记录 来 验证 插入 记录 是 否 成 功 : 








mysql> select * from person; 








执行 该 命令 后 


Pd 


得 到 如 图 B-7 所 示 的 结果 。 





图 B-7 执行 结果 


8. 修改 记录 


例如 ,将 张 三 的 出 生年 月 改 为 1971-01-10 ,命令 如 下 : 








mysql> update person set csny- '1971- 01- 10' where xm- 'jK — '; 








9. 删除 记录 


例如 ,可 以 执行 如 下 命令 删除 张 三 的 记录 : 








mysql» delete from person where xme ' 张 三 '; 








10. 删除 数据 库 和 表 
删除 数据 库 和 表 的 命令 格式 如 下 : 


drop database 库 名 ; 
drop table 表 名 : 


1. 查看 MySQL 版 本 


可 以 使 用 如 下 命令 查看 MySQL 的 版 本 信息 : 
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mysql> show variables like 'version'; 





或 者 也 可 以 使 用 如 下 命令 查看 MySQL 版 本 信息 : 





mysql» select version(); 














[1] 
[2] 
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